インストールは以下で説明しています。
プラスミドに続き、E.coliのゲノムを他のE.coliゲノムと比較してみる(公式ページのチュートリアル2)。
ゲノムをダウンロード。
fetch_genome_by_accession.sh -a CP001855 -o ./
CP001855.gbkがダウンロードされる。CP001855というgenbankのアクセッション番号で指定している。アクセッション番号はgenbankファイルのtop付近にある。
NCBIのNucleotideデータベース。青で強調しているのがアクセッション番号。
プロジェクトをビルドする。
build_blast_atlas.sh -i CP001855.gbk
CP001855ディレクトリができ、その中に複数のサブディレクトリとファイルができる。
他のE.coliゲノムをダウンロードする。
fetch_refseq_bacterial_genomes_by_name.sh -n "Escherichia*" --min 1000000 -o CP001855/comparison_genomes/
--min: ゲノムサイズ1Mbp以下は除く。(E.coliのプラスミドを排除するため)
343ファイルダウンロードされた。
デフォルト条件でゲノムを比較するなら以下のように打つ。
build_blast_atlas.sh -p CP001855
ゲノムになると、解析にかなりの時間がかかる。焦らず待つ。
一晩放置していると終わった。以下のフォルダができる。
CP001855/maps_for_dna_vs_dna
maps_for_dna_vs_dna/DNA vs DNAのpngを開いてみる。
一部の領域を拡大して見るなら、create_zoomed_maps.shを使う。
create_zoomed_maps.sh -p CP001855 -c 4450000 -z 15
-z: ズームサイズ。
-c: 大まかな領域の指定。
maps_for_dna_vs_dna/DNA vs DNAのpngを開いてみる。
中央の領域が他のE.coliゲノムにはないことがわかる。
さらにズームしてみる。
create_zoomed_maps.sh -p CP001855 -c 4450000 -z 60
DNA vs DNAのpngを開くと
このようになった。全体マップを描いて興味がある領域が出てくれば、create_zoomed_maps.shコマンドを使うことで欲しい領域だけ取ってくることができる。
create_zoomed_maps.shコマンドは--customオプションが存在しないので、フォントサイズをいじる場合はxmlファイルを直接編集する(xmlを編集する例はチュートリアル4参照)か、ゲノム全体を描画する時に前もって
--custom 'labelFontSize=100'
をつけてランする。"20"だとゲノム全体を描画すると見えないが、特定の領域だけ拡大するzoomコマンドを走らせると、x-large、large、mediumの3出力のうちmediumの出力でちょうど良いフォントサイズになる。例えば下の図は、20のフォントサイズで全体を描画してから、create_zoomed_maps.shでx15拡大して再計算しmediumの図を開いたものになる。
ちょうど良いフォントサイズ。
x-largeだとこのようにフォントは見えない。
つまりx-large出力を使うなら、20の数倍の値にしておく必要がある。
チュートリアル3へ