macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

CGView Comparison Toolによるゲノム比較 実践編 -大量のバクテリアゲノムの同時比較

 

インストールは以下で説明しています。

 

チュートリアルの総仕上げとして、CCTのコマンドfetch_all_refseq_bacterial_genomes.shを使って、登録されているバクテリアのrefseq配列全てを自動ダウンロードして、リファレンスゲノムと比較してみることにする。リファレンスとして、まだゲノムが登録されていない未知バクテリアのドラフトゲノムを用意した。ドラフトゲノムはRASTでアノテーションをかけてgbkファイル化してある。これを1148.gbkとする。

 

プロジェクト構築までの流れは以前と同じである。

1148.gbkのプロジェクトをビルドする。

build_blast_atlas.sh -i 1148.gbk

1148ディレクトリができる。

 

fetch_all_refseq_bacterial_genomes.shコマンドを使い、登録されているバクテリアゲノムをダウンロード。

fetch_all_refseq_bacterial_genomes.sh --min 1000000 -o 1148/comparison_genomes/

プラスミドゲノム除去のため、--min 1000000をつけて実行したが、それでも合計8272ファイル見つかった(--minなしだと16680)。ただし検索中にhitしなかった配列がかなりの割合で出現し、最終的には3142gbkファイルダンロードされた。

 追記 2018 05実行時は11385ゲノムダウンロードされた。

 

 

比較する。

build_blast_atlas.sh -p 1148 --memory 10000m --max_blast_comparisons 3200 
--map_size x-large --custom 'width=40000 height=40000 backboneRadius=16000
featureThickness=240 rulerFontSize=200 rulerPadding=400
tickThickness=30 tickLength=80 draw_divider_rings=F
_cct_blast_thickness=4.0 labelFontSize=100'