macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

CGView Comparison Toolによるバクテリアのゲノム比較2 - クロモソームの比較

 

インストールは以下で説明しています。

 

 

プラスミドに続き、E.coliのゲノムを他のE.coliゲノムと比較してみる(公式ページのチュートリアル2)。

 

ゲノムをダウンロード。

fetch_genome_by_accession.sh -a CP001855 -o ./

CP001855.gbkがダウンロードされる。CP001855というgenbankのアクセッション番号で指定している。アクセッション番号はgenbankファイルのtop付近にある。

f:id:kazumaxneo:20170613203039j:plain

NCBIのNucleotideデータベース。青で強調しているのがアクセッション番号。

 

プロジェクトをビルドする。

build_blast_atlas.sh -i CP001855.gbk

CP001855ディレクトリができ、その中に複数のサブディレクトとファイルができる。

 

他のE.coliゲノムをダウンロードする。

fetch_refseq_bacterial_genomes_by_name.sh -n "Escherichia*" --min 1000000 -o CP001855/comparison_genomes/

--min: ゲノムサイズ1Mbp以下は除く。(E.coliのプラスミドを排除するため)

343ファイルダウンロードされた。

 

デフォルト条件でゲノムを比較するなら以下のように打つ。

build_blast_atlas.sh -p CP001855

ゲノムになると、解析にかなりの時間がかかる。焦らず待つ。

 

一晩放置していると終わった。以下のフォルダができる。

CP001855/maps_for_dna_vs_dna

CP001855/maps_for_cds_vs_cds

 

 maps_for_dna_vs_dna/DNA vs DNAのpngを開いてみる。 

f:id:kazumaxneo:20170614110527j:plain

 

 

一部の領域を拡大して見るなら、create_zoomed_maps.shを使う。

create_zoomed_maps.sh -p CP001855 -c 4450000 -z 15

-z: ズームサイズ。

-c: 大まかな領域の指定。

 

 maps_for_dna_vs_dna/DNA vs DNAのpngを開いてみる。 

f:id:kazumaxneo:20170614111134j:plain

中央の領域が他のE.coliゲノムにはないことがわかる。

 

さらにズームしてみる。

create_zoomed_maps.sh -p CP001855 -c 4450000 -z 60

DNA vs DNAのpngを開くと

f:id:kazumaxneo:20170614111531j:plain

 

このようになった。全体マップを描いて興味がある領域が出てくれば、create_zoomed_maps.shコマンドを使うことで欲しい領域だけ取ってくることができる。

 create_zoomed_maps.shコマンドは--customオプションが存在しないので、フォントサイズをいじる場合はxmlファイルを直接編集する(xmlを編集する例はチュートリアル4参照)か、ゲノム全体を描画する時に前もって

--custom 'labelFontSize=100'

をつけてランする。"20"だとゲノム全体を描画すると見えないが、特定の領域だけ拡大するzoomコマンドを走らせると、x-large、large、mediumの3出力のうちmediumの出力でちょうど良いフォントサイズになる。例えば下の図は、20のフォントサイズで全体を描画してから、create_zoomed_maps.shでx15拡大して再計算しmediumの図を開いたものになる。

f:id:kazumaxneo:20170627123239j:plain

ちょうど良いフォントサイズ。

 

x-largeだとこのようにフォントは見えない。

f:id:kazumaxneo:20170627123344j:plainつまりx-large出力を使うなら、20の数倍の値にしておく必要がある。

 

チュートリアル3へ