メタゲノムアセンブリを分類する MetaProb

　Metagenomicsは、環境から直接得られたゲノム配列の研究である。微生物群集の分類学的多様性を特徴づけることは、メタゲノム研究の第一の目的の一つであり、過去10年間でますます普及している分野となっている（Mande et al、2012）。例えば、ヒトにおける微生物の多様性は、炎症性腸疾患（IBD）（Qin eet al、2010）および結腸直腸癌（Zeller et al、2014）などの疾患と関連することが見出されている。この分野では、高スループットの次世代シークエンシング（NGS）技術により、研究者は個々の微生物を単離して培養する必要なく、複数種のゲノムを直接シーケンシングすることができる。

　微生物群集の分類学的解析は、通常、ビニング（binning）と呼ばれるプロセスによって行われ、同じ種からのリードが一緒にグループ化される。リードをビニングすることにより、研究者は環境中の種の数と豊富さを特定し、各々の種がどのような機能的役割を果たし、これらの種がどのように働くかをさらに理解することができる。

　メタゲノムリードを分類するための多くの計算方法が開発されている。これらの方法は大きく2つのカテゴリーに分類することができる。 1つのカテゴリはリファレンスベース（教師あり）であり、リファレンスデータベース内のヒットシーケンスを利用してリードを分類する。Meta（Huson et al、2007）、Kraken（Wood and Salzberg、2014）、Clark （Ounit et al、2015）およびMetaPhlan（Segata et al、2012）などがある。リファレンスなし（教師なし）の手法は、BiMeta（Vinh et al、2015）、MetaCluster（Wang et al、2012; Yang et al、2010）、AbundanceBin（Wu and Ye、2011）、CompostBin （Chatterji et al、2008）がある。これらのツールはリファレンス配列を必要とせずリードをグループ化する。これらの方法は、通常、リード間の類似性のさまざまな定義に基づいている。

　リファレンスベースの方法では、ターゲットゲノムのデータベースを索引付けする必要がある。例えばNCBI / RefSeqはバクテリアゲノムのデータベースであり、これはクエリのリードを分類するために使用できる。これらの方法大量のRAMとディスク容量を必要とするコンピューティング機能が必要になる。しかし、環境試料中のほとんどの微生物のゲノムに由来するクエリ配列は、既存のリファレンスデータベースにおいて分類学的に関連する配列を欠いている。環境試料中に見出されるほとんどのバクテリアは未知であり、実験室で培養および分離することができない（Eisen、2007）。これらの理由から、リファレンスベースの方法を使用する場合、割り当てられていないリードの数は非常に高くなる可能性がある（Lindgreen et al、2016）。これは、サンプルに含まれるすべてのゲノムが分かっている場合にのみリファレンスベースの方法が役立つことを示している可能性がある。したがって、分類学的コンテキストが存在しないため、ビニングは非常に困難な作業になる。

　一方、リファレンスフリーの方法では、サンプル中のすべてのゲノムを知る必要はないが、リードをグループに分けて、同じ種からのリードが一緒になるようにする。リファレンスフリーのビニングツールは、同じゲノムからのDNAフラグメントのk-mer（フラグメントの長さ-kサブストリング）分布は異なるゲノムのDNAフラグメントよりも類似しているという観察に基づいている。したがって、リファレンスゲノムを使用せず（すなわち教師がいない）、2つのフラグメントがそれらのk-mer分布に基づいて類似の種のゲノムに由来するかどうかを決定することができる。メタゲノミックデータを処理する際の主な問題は、サンプル中の種の割合、すなわち存在量（abundance rate）が大きく変化し得るという事実である。ほとんどのツールは豊富な比を持つ種のみを扱うことができ、種の豊富さの比が異なる実際の状況ではそのビニング性能が著しく低下する。不均一な存在比を扱うために、最近（論文執筆時点）、いくつかのアルゴリズムが開発されている（Vinh et al、2015; Wang et al、2012; Wu and Ye、2011）。例えば、AbundanceBin（Wu and Ye、2011）は存在比が非常に異なる場合はうまくいくが、いくつかの種が同様の存在比を持つ場合に問題が生じる。 BiMeta（Vinh et al、2015）やMetaCluster（Wang et al、2012）のような他のツールは、リードを多くの小さなクラスターにグループ化して、少数の種（低い存在比で）のリードを分離クラスターとして存在させることができる。これらの両方の方法は、比較手段として、グループ上のk-mersカウントのベクトル間の単純なユークリッド距離を使用する。しかし、最近、k-mers数のユークリッド距離は単一シーケンスノイズによって支配される傾向があり、この作業には適していないことが示されている（Song et al、2014）。 2つの配列または配列セットのペアワイズ比較は、アライメントフリーの統計学における研究から導かれた、より洗練された類似性測定法を用いて行うことができる（Comin et al、2015; Kantorovitz et al、2007; Pizzi、2016; Sims et et al、2009）。同じパラダイムに従って、ここでは、個々の配列のノイズによって支配されない確率論的配列シグネチャと呼ばれる新しい自己標準化統計を提案する。これは異なる存在比でリードグループを比較することができる。

　本論文では、MetaProbと呼ばれるメタゲノムビニングのための新しいアセンブリアシスト手法について説明する。これは独立リードセットと確率的シーケンスシグネチャの定義に基づいている。本方法は以下のように要約することができる：（i）k-mers頻度が重複したk-merをカウントしないように、独立したセットをカウントする方法の定義。（ii）k-mersカウントを処理し確率的配列シグネチャに変換する新しい方法と、基礎となるゲノム統計のより良い推定値を生成するために、k-merの可変分布および不均衡なリードグループを補正する。（iii）異なるシーケンシング技術に容易に適応できる確率的枠組みの提案、実際にMetaprobは現在のショットガンリード（700 bp以上）に適している; （iv）確率的配列シグネチャーに基づくサンプル中の種の数の新規で効果的な推定。

　著者らは、合成データセットと実データセットで実験を行い、MetaProbを人気ツールAbundanceBin（Wu and Ye、2011）、BiMeta（Vinh et al、2015）、MetaCluster（Wang et al、2012）と比較した。 MetaProbは種とその存在量を正確に識別する能力において他の方法よりも優れている。

インストール

ubuntu18.04のPython 3.6.2 :: Anacondaでテストした。

依存

Boost library
Eingen library

本体　Bitbucket

#Anaconda環境ならcondaで導入できる (linux only)。
conda install -c bioconda metaprob

> MetaProb

$ MetaProb

Directory output: output/

N. Cluster: 0

Parameter q: 30

Parameter m: 5

Parameter SeedSize: 9000

Parameter lmerfreq: 4

Parameter Kmeans iteration max: 100

Norm: D2star_All_Read_Prob_Lmer_Euclidian

Graph Type: Paired

Loading Sequences... Complete

Loaded sequences: 0

-----------------------------------------

Number of groups: 0

-----------------------------------------

——

テストラン

exampleデータをランする。

git clone https://bitbucket.org/samu661/metaprob.git
cd metaprob/TestInputFile/

シングル。fastaフォーマット。

MetaProb -si long_example_1.fna -numSp 2 -feature 2 -m 45

MetaProb -pi short_example_1.fna.1 short_example_1.fna.2 -numSp 2
MetaProb -pi short_example_2.fna.1 short_example_2.fna.2 -numSp 2 -feature 1

引用

MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures

Girotto S, Pizzi C, Comin M

Bioinformatics. 2016 Sep 1;32(17):i567-i575

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムアセンブリを分類する MetaProb