2020 6/15 追記
種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入した場合でも、アセンブルプロセス中に十分な注意を払わなければ、最終的にアセンブルされたゲノムは複数の種からのデータの混合物になる可能性がある。そのようなアセンブリは、配列ベースの生物学的推論を混乱させる可能性があり、公開データベースに寄託された場合、根本的な問題に気づかないユーザーによって下流の解析に含まれる可能性がある。ブラウザベースのビューアで完全に再現可能なインタラクティブな探索のためのアセンブリファイル、リードファイル、解析ファイルを処理するBlobToolKitを紹介する。BlobToolKitはアセンブリ中に非ターゲットDNAをフィルタリングするために使用でき、研究者が高い生物学的信頼性を持ったアセンブリ配列を生成するのに役立つ。我々(著者ら)は、 International Nucleotide Sequence Data Collaboration で公開されている真核生物アセンブリにて自動化されたBlobToolKitパイプラインを実行しており、その結果を https://blobtoolkit.genomehubs.org/view の公開インスタンスを通して利用可能にしている。我々(著者ら)は、公開されているすべてのゲノムの解析を完了させ、新しいゲノムの流れに合わせて、その流れを維持することを目的としている。これらの見解をEuropean Nucleotide Archiveのゲノムアセンブリの表示に組み込むことで、公開されている記録と並んでアセンブリーの品質を示す指標を提供し、ビューアでの完全な探索を可能にするためのリンクを提供する。
HP
https://blobtoolkit.genomehubs.org
viewer
https://blobtoolkit.genomehubs.org/btk-viewer/
Viewer Tutorials
https://blobtoolkit.genomehubs.org/btk-viewer/viewer-tutorials/
help
https://blobtoolkit.genomehubs.org/view/Nematoda/dataset/ANCG01/cumulative#Help
ここではビューアを紹介します。コマンドラインで動作するBlobTools2は別に紹介します。
https://blobtoolkit.genomehubs.org/blobtools2/
web viewer
https://blobtoolkit.genomehubs.org/view/Nematoda/dataset/ANCG01/cumulative#Datasets にアクセスする。
"all"で検索すると利用可能な全データが確認できる。
2272 dataset 利用可能
"Oryza sative japonica"と検索してみる。
4つのアクセッションがヒットした。
クリックするとそのゲノムアセンブリ評価ページにジャンプする。
N50が最大のアクセッションを選択する。大半はストレプト植物 だが、それ以外のtaxonomyがアサインされた配列も見つかる。
左側のphylumレベルからストレプト植物 をオフにしてみた。
ストレプト植物 のアセンブリが除かれ、Virus-undefがアサインされた配列が強調された。40Mbpほどある。
現在はアセンブリ累積長だが、左上のメニューから表示内容を切り替え可能。
busco
detail
snail
table
categoryでソートしてvirus undefのcontigを視覚化してみた。
contig全長のうち、特定の領域だけがvirus undefとアサインされていることが分かる。
report(全部)
blobplotが利用できるデータもある。
settingのタブからは作図のパラメータを変更できる。
詳細はhelpから確認してください。
追記
taxaから辿ることもできます。
https://blobtoolkit.genomehubs.org/view/
()内の数値をクリックして展開していく。0になったら1つもゲノムがないということ。
引用
BlobToolKit - Interactive Quality Assessment of Genome Assemblies
Richard Challis, Edward Richards, Jeena Rajan, Guy Cochrane, Mark Blaxter
G3: GENES, GENOMES, GENETICS Early online February 18, 2020
関連