macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

公開されている真核生物アセンブリを分析する BlobToolKit

 2020 6/15 追記

 

 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入した場合でも、アセンブルプロセス中に十分な注意を払わなければ、最終的にアセンブルされたゲノムは複数の種からのデータの混合物になる可能性がある。そのようなアセンブリは、配列ベースの生物学的推論を混乱させる可能性があり、公開データベースに寄託された場合、根本的な問題に気づかないユーザーによって下流の解析に含まれる可能性がある。ブラウザベースのビューアで完全に再現可能なインタラクティブな探索のためのアセンブリファイル、リードファイル、解析ファイルを処理するBlobToolKitを紹介する。BlobToolKitはアセンブリ中に非ターゲットDNAをフィルタリングするために使用でき、研究者が高い生物学的信頼性を持ったアセンブリ配列を生成するのに役立つ。我々(著者ら)は、 International Nucleotide Sequence Data Collaboration で公開されている真核生物アセンブリにて自動化されたBlobToolKitパイプラインを実行しており、その結果を https://blobtoolkit.genomehubs.org/view の公開インスタンスを通して利用可能にしている。我々(著者ら)は、公開されているすべてのゲノムの解析を完了させ、新しいゲノムの流れに合わせて、その流れを維持することを目的としている。これらの見解をEuropean Nucleotide Archiveのゲノムアセンブリの表示に組み込むことで、公開されている記録と並んでアセンブリーの品質を示す指標を提供し、ビューアでの完全な探索を可能にするためのリンクを提供する。

 

HP

https://blobtoolkit.genomehubs.org

viewer

https://blobtoolkit.genomehubs.org/btk-viewer/

Viewer Tutorials

https://blobtoolkit.genomehubs.org/btk-viewer/viewer-tutorials/

help

https://blobtoolkit.genomehubs.org/view/Nematoda/dataset/ANCG01/cumulative#Help

 

ここではビューアを紹介します。コマンドラインで動作するBlobTools2は別に紹介します。

https://blobtoolkit.genomehubs.org/blobtools2/

 

web viewer

https://blobtoolkit.genomehubs.org/view/Nematoda/dataset/ANCG01/cumulative#Datasets にアクセスする。

f:id:kazumaxneo:20200323213342p:plain

 

"all"で検索すると利用可能な全データが確認できる。

2272 dataset 利用可能

f:id:kazumaxneo:20200323213838p:plain

 

"Oryza sative japonica"と検索してみる。

f:id:kazumaxneo:20200323214522p:plain

4つのアクセッションがヒットした。

f:id:kazumaxneo:20200323214541p:plain

 

クリックするとそのゲノムアセンブリ評価ページにジャンプする。

f:id:kazumaxneo:20200323215056p:plain

 

N50が最大のアクセッションを選択する。大半はストレプト植物 だが、それ以外のtaxonomyがアサインされた配列も見つかる。

f:id:kazumaxneo:20200323215241p:plain

 

左側のphylumレベルからストレプト植物 をオフにしてみた。

f:id:kazumaxneo:20200323215357p:plain

ストレプト植物 のアセンブリが除かれ、Virus-undefがアサインされた配列が強調された。40Mbpほどある。

 

現在はアセンブリ累積長だが、左上のメニューから表示内容を切り替え可能。

f:id:kazumaxneo:20200323221849p:plain

 

busco

f:id:kazumaxneo:20200323220320p:plain

detail

f:id:kazumaxneo:20200323220338p:plain

snail

f:id:kazumaxneo:20200323220433p:plain

 

table

f:id:kazumaxneo:20200323220448p:plain

 

categoryでソートしてvirus undefのcontigを視覚化してみた。

f:id:kazumaxneo:20200323220655p:plain

contig全長のうち、特定の領域だけがvirus undefとアサインされていることが分かる。

 

report(全部)

f:id:kazumaxneo:20200323220505p:plain

 

 

blobplotが利用できるデータもある。

f:id:kazumaxneo:20200323221941p:plain

 

settingのタブからは作図のパラメータを変更できる。

f:id:kazumaxneo:20200323215712p:plain

 詳細はhelpから確認してください。

 

追記

taxaから辿ることもできます。

https://blobtoolkit.genomehubs.org/view/

f:id:kazumaxneo:20200615163019p:plain

()内の数値をクリックして展開していく。0になったら1つもゲノムがないということ。

引用

BlobToolKit - Interactive Quality Assessment of Genome Assemblies
Richard Challis, Edward Richards, Jeena Rajan, Guy Cochrane, Mark Blaxter
G3: GENES, GENOMES, GENETICS Early online February 18, 2020

 

関連

http://kazumaxneo.hatenablog.com/entry/2017/09/11/232442