インストールは以下で説明しています。
チュートリアル1なので、やや丁寧に説明していく。
インストールが終わったら、CCTのチュートリアルにある図の描画を実践していく。初めての人は下のコマンドを順にコピペしていけばよい。
初回はE.coliのプラスミドE24377A plasmid pETEC_35 (35kbp)と他のE.coliのプラスミドとの比較を行う。
まずpETEC_35の配列をダウンロードする。
fetch_genome_by_accession.sh -a NC_009787 -o ./
上記のコマンドを打つと、カレントディレクトリにNC_009787.gbkがダウンロードされる。
fetch_genome_by_accession.shコマンドだが、このシェルスクリプトは内部でNCBIのbacteraiのFTPサイト(ftp://ftp.ncbi.nih.gov/genomes/archive/old_refseq/Bacteria/)に繋げ、wgetで配列ダウンロードしているy。
プロジェクトをビルドする。ダウンロードしたgbkを指定して以下のコマンドを打つ。
build_blast_atlas.sh -i NC_009787.gbk
-iで最初にダウンロードしたファイルを指定する。終わるとNC_009787ディレクトリができ、その中にいくつかののサブディレクトリとファイルができる。
比較するE.coliの配列をダウンロードする。ビルドしたプロジェクトのサブディレクトリcomparison_genomes/を指定して以下のコマンドを打つ。
fetch_refseq_bacterial_genomes_by_name.sh -n "Escherichia*" --max 1000000 \ -o NC_009787/comparison_genomes/
--max: これより長いゲノムは外される。<1Mbとすることでクロモソームをダウンロードするのを防止。
-n; バクテリアのフルネーム、または部分名。検索に使われる。"*"でワイルドカード検索している。
上記のコマンドを打つと、NC_009787/comparison_genomes/中に他のE.coliのgenbank配列がダウンロードされる。2017年6月に試したところ586ゲノムダウンロードされた。このコマンドもfetch_genome_by_accession.shと同じく内部でNCBIのbacteraiのFTPサイトの検索をかけている。(備考 このコマンドはgbkファイルをダウンロードするのに"使える")。
ダウンロードには数時間かかった。
ゲノム比較を行うには以下のコマンドを打つ。
build_blast_atlas.sh -p NC_009787
-pでプロジェクトディレクトリを指定する。このコマンドを打つと、リファレンスゲノムNC_009787.gbkをcomparison_genomes/中の全gbkファイルに対してblast検索し、結果を画像ファイル出力する。当然時間はそれなりにかかる。
終わると、NC_009787/に2つのサブディレクトリができる。
NC_009787/maps_for_dna_vs_dna
2のディレクトリにはそれぞれ6つのファイルが入っているが、画像の解像度が違うだけで内容は同じである。
DNA vs DNAのpngを開いてみる。
比較対象はは587のプラスミドデータあるが、相同性top100のプラスミドのみが描画される(100以上描画する例はチュートリアル7を参照)。左下の凡例の比較ゲノム名は絵の外周から内側と同じ順に上から並んでいる。
右上の凡例を拡大。
、
cDNA vs cDNAのpngを開いてみる。
cDNAもDNAと同じでtop100がビジュアル表示されている。
大量のデータを使っているので、色が同じだと凡例があってもどれがどのブロックが分かりづらい。そこで公式チュートリアルでは、コマンド実行時にmapをカスタマイズする--customオプションをつけ、定規オプション (blast_divider_ruler) を設定する方法を提案している。blast_divider_rulerオプションを付けると、10リングごとに仕分け線が描かれ、同時に左下の凡例それぞれに上から通し番号が付く。
--customをつけて実行。
build_blast_atlas.sh -p NC_009787 -x --custom "blast_divider_ruler=T blastRulerColor=rgb(50,205,50)"
-xは再解析時にデータを再利用するオプション。解析時間を短縮できる。
--custom " "でビジュアルを変える様々なオプションが利用できる。ここではblast_divider_rulerとblastRulerColorを""の中につけて両者をスペース区切りにしている。customで指定できるオプションの詳細は公式HP。
blast_divider_ruler=T #Tはtrue。つけないならF (false)。
blastRulerColor=rgb(50,205,50) #仕切り線の色。RGBの50,205,50は薄い緑色。
上記コマンドを実行すると データは上書きされる。
DNA vs DNA
小さくて見にくいが、10リングごとに黄緑の線が付き、左下凡例にも通し番号が付いている。
今度はE.coliのクロモソームゲノムを比較してみる。