ゲノムスキミングサンプルから種を同定する Skmer

　環境サンプルの分類学的多様性を迅速かつ安価に研究する能力は、急速な気候変動と生物多様性の変化が起きているこの時代において非常に重要である。現在選択されている分子技術は、（meta）Barcoding[論文より　ref.1- 3]である。伝統的な（meta）Barcodingは、ユニバーサルプライマーを用いて十分にPCR増幅な保存された領域を有する、分類学的に有益なマーカー遺伝子および群特異的マーカー遺伝子（例えば、ミトコンドリアCOI [ref.1,4]、animalの12S / 16S [ref.5,6]、植物クロロプラストのmatK [ref.7] 、および菌類のITS [ref.8]）の使用に基づいている。Barcodingは、単一サンプルの分類学的同定のために使用される。Meta-barcodingの場合、目的は複数の種からなる混合サンプルの分類学的組成を明らかにすることである[ref.3]。（一部略）
　（meta）Barcodingの精度は、リファレンスデータベースのカバレッジと、それに対するクエリの検索に使用される方法に依存している[ref.3]。カバレッジを高めるために、数百万のバーコードを有するリファレンスデータベースが生成されている（e.g., the Barcode of Life Data System, BOLD, for the COI marker [ref.12]）。リファレンスマーカーデータセットにおいて最も近いマッチを見出す計算方法（例えば、TaxI [ref.13]）、および既存のマーカーツリーへのクエリの配置に関する計算方法[ref.14~16]が開発されている。しかし、（meta）Barcodingへの従来のアプローチは、その成功にもかかわらず、いくつかの欠点を有する。マーカー遺伝子増幅のためのPCRは、比較的高品質のDNAを必要とするため、DNAが激しく断片化されている試料には適用できない。さらに、バーコードマーカーは比較的短い領域であるため、それらの系統に関するシグナルおよび同定能は制限される可能性がある[ref.17]。例えば、最近のCOIバーコードを使用した研究では、4,174種のWasp (wiki)のうち896種を区別することができなかった[ref.18]。
　現在でも低コストなPCRベースのパイプラインは魅力的ではあるが、ショットガンシークエンシングのコストは下がり続けており、現在では、サンプル調製と労働コストを含めても、1-2Gbのリファレンスサンプルあたり80ドルでシーケンシングすることが可能になっている（ref.19）。これにより、研究者はローパスシーケンシングを使用してgenome-skims [ref.19,20]を生成する、従来とは別の方法によるBarcodingを行う提案をしている。オルガネラDNAはショットガンシーケンシングデータにおいて過度に過剰な傾向があるため、ローパスショットガンデータからプラスチドおよびmtDNAゲノムを再構築することが可能である。例えば、開花植物のApocynaceae科からの全リードの10.4％[ref.20]は葉緑体由来であった。 PhyloAlps [ref.21]、NorBol [ref.22]、DNAmark [ref.23]などのプロジェクトでは、ゲノムスキミング技術に基づく大規模なリファレンスデータベースが構築中である。

　ゲノムスキミングを種同定に適用するには、オルガネラゲノムのアセンブリが必要になる。これは、アセンブリエラーを回避するため、比較的時間のかかるマニュアルキュレーションステップを必要とするタスクである[ref.24]。このアプローチは、非ターゲットデータの膨大な部分を捨てる。これはシグナルを減らすことを意味する。これらの理由から、DNAmarkプロジェクト[ref.23]ではオルガネラマーカーに頼るのではなく、ゲノムスキムで生成されたリードセットを種の識別子として使用できる代替方法を検討している。このアプローチは、興味深い方法論的問題を提起する。おそらく未アセンブリの利用可能なゲノム情報をすべて使用して、従来のバーコードと同様の方法で参照サンプルおよびクエリーサンプルを分類学的にプロファイリングすることができるだろう。本稿では、リファレンスサンプルとクエリーサンプルの両方の低カバレッジゲノムスキムを直接使用する新しいアセンブリフリーメソッドを紹介する。マーカー遺伝子のアセンブリステップを回避することにより、著者らのアプローチはまた、リファレンスデータベースを拡張するために必要なデータ処理の量を削減する。（一部略）
　問題は、正確な一致が見つからない場合にクエリと一致するリファレンスゲノムスキムを見つけることである。ここでは最も近い利用可能な一致を探す。ここで直接言及されていないより高度な問題は、リファレンス種の系統樹にクエリを配置することである。ここで取り上げられていないさらに困難な課題は、いくつかの異なる分類群のDNAを含むゲノムスキムのクエリを分解して構成種を決めることである。

（一部略）

　我々（著者ら）は、2ゲノム間で異なる位置の割合として定義されるハミング距離と呼ばれる尺度に焦点を当てる。以下のゲノム距離と呼ばれるハミング距離は、2種間の進化的相違を反映しているため、種同定に有用である。ここでは、低カバレッジゲノムスキムからもゲノム距離を正確に計算する新しい方法Skmerを紹介する。Skmerは、
ゲノムスキムから得られたk-merコレクションによって表される2つの生物間のゲノム距離を推定する。広範なテストにおいて、Skmerはゲノムスキムに基づいてゲノム距離の推定を劇的に改善し、ゲノムスキムのクエリをリファレンスコレクションに正確に配置することを示す。

2018年11月現在、Preprintです。

genome skimmingとは

The term “genome skimming” was recently coined [7–9] to describe shallow sequencing approaches aiming to uncover conserved ortholog sequences for phylogenomic studies.

(Dee R. Denver et al., 2016 より)

インストール

mac os10.14のminiconda2-4.0.5環境でテストした。

本体 Github

conda install -y -c bioconda skmer

> skmer -h

$ skmer -h

usage: skmer [-h] {reference,query} ...

Estimate gonomic distances between genome-skims

optional arguments:

-h, --help show this help message and exit

commands:

reference Process a library of reference genome-skims

query Compare an input genome-skim against a reference library

{reference,query} Run skmer {reference,query} [-h] for additional help

テストラン

１、skmer reference : リファレンスのMash sketchライブラリ作成

git clone https://github.com/shahab-sarmashghi/Skmer.git
cd Skmer-master/data/

skmer reference ref_dir -k 31 -l library

library/とref-dist-mat.txtができる。 ref_dir/にリファレンス配列（ここではfastq）は３つあり、library/に３つのサブディレクトリができる。

f:id:kazumaxneo:20181129211354p:plain

２、skmer query : クエリのゲノムスキミング実行

skmer query qry.fastq library -o output

出力

> cat dist-qry.txt

$ cat dist-qry.txt

ref_1 0.009629338685956168

ref_2 0.020093990174583465

ref_3 0.029631378995183755

距離によってソートされている。

引用

Assembly-free and alignment-free sample identification using genome skims

Shahab Sarmashghi, Kristine Bohmann, M. Thomas P. Gilbert, Vineet Bafna, Siavash Mirarab

bioRxiv preprint first posted online Dec. 8, 2017

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムスキミングサンプルから種を同定する Skmer