メタゲノムから特定の種のリードを得る MetaObtainer

　微生物ゲノム研究は通常、実験的限界のために1つの細菌株に焦点を当てる。この種の方法は、少なくとも2つの欠点を有する：（1）微生物の99％以上が未知であり、栽培または単離することができない。（2）生息地の微生物が互いとその宿主に対して様々な機能的効果を有するので、単一の個体を研究することは無意味である。したがって、環境サンプル（メタゲノミクスまたは環境ゲノミクスとして知られている）からのすべての微生物の集合ゲノムに関するゲノム解析が重要となる。 Metagenomicsは、環境試料中の未培養バクテリアゲノムを直接配列決定することができる[論文より ref.1]。したがって、単離できないか、または実験室で成長することが困難な生物を研究することが可能になり、天然の微生物の多様性ならびにそれらの役割および相互作用を理解できるより好ましい方法を提供している。

　通常、メタゲノムデータセットは非常に複雑であり、複数のゲノムからの多数のリードを含み、種の数とその存在量は分からない。密接に関連する種のゲノムが同種の配列を共有する可能性があるため、メタゲノムアセンブリをほぼ不可能にする。したがって、メタゲノミックデータを処理するための第1のステップは、各ゲノムにリードを割り当て分類することである。既存のメタゲノム分類法は、リードのアラインメントに基づく方法[ref.2,3]、unsupervised methods（教師なしの方法）[4,5,6,7]、および supervised methods （教師ありの方法）[ref.8,9,10]の3つの主要なカテゴリに分類できる。アライメントベースの方法は、リードを既知の参照ゲノムにアライメントさせ、アライメント結果に基づいて類似の参照ゲノムの分類クラスに割り当てることを試みる。例えば、MEGAN [ref.2]は、BLASTを使用して既知のゲノムのデータベースにリードをアライメントし、lowest common ancestor approachを用いて系統にリードを割り当てる。 CARMA [ref.3]は、すべてのPfamドメインとタンパク質ファミリーを系統発生マーカーとして使用して、アセンブルされないリードの系統分類を行っている。配列アラインメントに基づく方法は、ゲノムがデータベースに含まれている種に対しては有効であるが、現状では1％未満の微生物しか培養および配列決定されていない[ref.6]。　　

　unsupervised の方法は、参照ゲノムなしで各ゲノムにリードを割り当てようとする。手法のほとんどは構成情報に頼っている。 MetaClusterは、k-mers間のSpearman's Footrule distancesを使用してリードをクラスタリングする[ref.4,5,6]。 CompostBinは、六量体頻度とPCA分析を使用して、意味のある上位3つのコンポーネントを抽出し、選択したコンポーネントの値に基づいてリードをクラスタリングする[ref.7]。しかし、unsupervised の方法は、参照情報を利用しないため、一般に精度が低い。supervisedの方法は、アラインメントに基づく方法とunsupervised の方法の特性を組み合わせる。この種の方法は、参照ゲノムを利用するが、参照データベースにないゲノムの種を分類することもできる。通常、これらの方法は、unsupervisedの方法よりも優れているが、シーケンスベースの方法よりは精度が悪い。

　NGS技術[ref.11]の発達により、より少ないコストと時間でより多くのメタゲノムサンプルが生成されるようになっている。しかし、NGSによって生成されたショートリードは、以前よりも分類の問題をはるかに困難にしている。それは、unsupervisedの方法とsupervisedの方法の両方が、リードの構成情報を使用するためであり、リードが短すぎると役に立たないからである。 Bentley氏は、構成情報は1000 bps以上のリードしか処理できないと指摘しているが、NGSリードの長さはしばしば200 bps未満である。

　ショートリードを処理するためのツールがいくつか提案されている。 AbundanceBinは豊富な情報に基づいてリードを分離するように設計されている[ref.13]。 l-merの頻度はポアソン分布の混合から来るという仮定に基づいて、それらの頻度に応じてゲノムおよびクラスターl-merの存在量レベルを予測し、次いでリードをクラスター化する。 AbundanceBinは、存在比が大きく異なる場合にのみうまく機能する。 TOSSは、1つのゲノムにのみ現れるユニークなl-merを見つけようとし、l-mer反復に基づいてリードのgraphを生成し、graphのクラスタリング方法でリードをクラスタ化する[ref.14,15]。 MetaClusterは、最初にl-mersリピートに基づいて小グループに短く読み込み、その後、K-means [16,17]でグループをマージする。しかしながら、これらの方法はすべて、正確に各ゲノムにショートリードを割り当てることができないため、実際のアプリケーションでの使用が制限されている。幸いなことに、多くのアプリケーションでは、メタゲノムサンプル内のすべての種をお互いから分離する必要はない。なぜなら、通常、サンプル内の特定の種類の種にのみ焦点を当て、他の種については気にしないためである。例えば、研究している疾患が特定のウイルスによって引き起こされていることを知っているなら、サンプルからこれらのウイルスのリードを選択し、他のリードを取り除くことができる[ref.18]。サンプルにはいくつかの未知の種類のウイルスが存在するが、類似の既知のウイルス情報を使用してもウイルスを取得できる。この作業は、従来のリードのbinningと比較して簡単で、実行可能である。しかしオーサーらが知る限り、NGSのショートリードから特定の種を得ることができるツールはない。

　本論文では、前述の問題を解決するためのMetaObtainerというツールを提案している。 MetaObtainerは、最初に同じゲノムから得られる可能性が高いリードのグループを形成し、各グループのk-mer分布を推定し、次に機械学習アルゴリズムおよび参照データベースを使用して分類器を訓練する。最後に、分類器を使用して、必要な種のリードを取得する。このツールは、ショートリード処理のいくつかの最新技術を合成するので、他のツールよりも優れたパフォーマンスを持つ。 MetaObtainerは次の５つの処理を可能にする（1）非常に高い精度で100 bpより短いリードを処理する。（2）同種またはよく似た種のリファンレスゲノムを用いて未知の種を見つける。（3）データセット中の特定の種のリードが非常に少ない場合には良好に機能する。（4）同様の存在量レベルと異なる存在量レベルのゲノムを扱う。（5）メタゲノムサンプルから複数の種のカテゴリーを得る。

インストール

公式ページ。本ツールがダウンロードできる。

http://www.cs.ucr.edu/~wpan005/metaobtainer/

tar -xvf MetaObtainer.tar
cd MetaObtainer/
make
./metaobtainer

$ ./metaobtainer

groupreads is doing...

Execute: MetaBinning read-file -threshold 0.040000 -MaxLen 30000

option.db_in=./sample.fna

Step 1: Enter Read file

Can not open file ./sample.fna

ラン

metaobtainer -r inout.fq -o outout -c ref.fa

-r Reads file (fasta).
-o Output directory.
-k Length of k-mers.
-c information of reference genomes

作成途中

引用

MetaObtainer: A Tool for Obtaining Specified Species from Metagenomic Reads of Next-generation Sequencing

Pan W, Chen B, Xu Y

Interdiscip Sci. 2015 Dec;7(4):405-13.

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムから特定の種のリードを得る MetaObtainer