メタゲノムのtaxonomyアノテーションを行い定量する MGmapper

　迅速で効率的なDNAシーケンシング技術の進歩により、堆積物[論文より ref.1] [ref.2]、水[ref.3]、氷[ref.4]、ヒトなど様々な環境から微生物群集を研究することが可能になった[ ref.6]。既知のDNA配列決定プラットフォームの中で、イルミナHiSeqおよびMiSeqは、大きなデータ出力および塩基対当たりのコストが比較的低いため、単一ゲノムおよびメタゲノミクス研究の両方にとって好ましい。ゲノムショットガンシーケンシング技術全体を適用すると、サンプル中の全てのDNA配列が決定され、数百万の短いヌクレオチド配列が生成される。単一のヒト腸試料からのメタゲノミクスデータは、何百もの生物を表す複雑な系であり、試料が多くの個体からの混合物として由来する場合にはさらに多様性が予想される。たとえば下水道、公共交通機関または動物園からの人間または動物が当てはまる。そのようなデータセットを分析することへの関心は、細菌またはウイルス病原体のモニタリング、抗菌抵抗性遺伝子の同定、ファージ同定、または単に存在する生物の完全なカタログを得ることであり得る。このような解析は簡単ではなく、大量のメモリを使用せずにfastq配列のリードを多くの参照配列データベースにマッピングし、配列アライメントを解析して検証するプログラム、偽陽性率の低いタクソノミー注釈および最終的に出力を提示するプログラム（SNPまたはコンティグアセンブリ）を使用して、細菌、ウイルス、菌類、植物などの多くの全ゲノムデータベースの使用を可能にする複雑なデータセットのルーチン分析にアクセスできるようになった。脊椎動物、脊椎動物、無脊椎動物などの脊椎動物でもあり、抗菌抵抗性遺伝子、16S rRNA、または一連のfasta配列に基づく任意のカスタムデータベースなどの遺伝子データベースの使用も可能である（一部略）。

　リードの各々をゲノムに割り当てるタスクは困難であり、擬陽性の予測の問題は、クエリー配列が標的配列の大きなデータベースに対してマッピングされるために常に考慮されるべき問題である。ターゲットデータベースサイズが大きくなるにつれて、ランダムヒットを見つける機会も増える。Blastプログラムスイート[ref.7]は、数十年前から、大きなデータベースに対するクエリー配列のペアワイズアライメントのため最も頻繁に使用されるプログラムの1つである。 Blastは、期待値の形式のフィルタをしきい値として使用し、偽陽性の数を減らす。分類法の分野では、フィルタやカットオフを使用することはほとんどないが、最近のベンチマーク研究では、in vitroとin silicoの両方のデータセットで評価するといくつかの方法が存在すると予測されている。この研究では、15種の分類法注釈法のベンチマーキングが行われた。そのうち2つ（Kraken [ref.9]およびCARMA3 [ref.10]）は、in vitroセットに存在するすべての種を正確に同定し、0.1％のリードカウント量閾値を使用した（以下略）。

分類法注釈を実行するためのいくつかの方法があり、以前のメタゲノミクスベンチマーク研究では、正しい注釈と誤った注釈とを区別するために閾値または後処理が適用されない限り、膨大な数の偽陽性種のアノテーションが起こることが問題でああった。MGmapperは、raw NGSデータを処理し、リファレンスベースのリード割り当てを実行し、その後、種および株レベルの解像度で信頼できるtaxonomyアノテーションを生成するためのパッケージである。 8種の属、11種および12種からなる in vitro細菌mock communityサンプルは、以前メタゲノミクス分類法のベンチマーキングに使用されていたものである。後処理フィルタを適用した後、著者らは種および属レベルで100％正確にtaxonomy を割り当てた。種レベルのアノテーションでは75％のrecallとprecisionが得られた。種レベルでMGmapperとKraken（紹介）を比較すると、MGmapperはリードの84.8％を使用して種レベルでtaxonomyに割り当て、Krakenでは70.5％であり、どちらの方法も偽陽性のないすべての種を特定したことを示している。出力は、拒否されたタクソノミー注釈と受け入れられたタクソノミ注釈の両方について、豊富なリード数統計のプレーンテキストとExcelシートである。 MGmapperのコマンドライン版ではカスタムデータベースの使用が可能で、完全なパイプラインはBitbuckedパッケージとして利用可能である。

Bitbucket

https://bitbucket.org/genomicepidemiology/mgmapper

MGmapper web

Best mappingを行うデータベースを選択する。初期はアーキアとバクテリアが選択されている。

f:id:kazumaxneo:20180502110824j:plain

Best modeはデータベース1,2とする。full modeは実行しないので空白。Trimmingは実行する。すでにアダプターとクオリティトリミングが行われたfastqならチェックを外す。

f:id:kazumaxneo:20180502111222j:plain

alignment criteriaのデフォルトのfractionは0.8になっている。MGmapperではbwaでリードをデータベースにアライメントし、リード長に対するmatches+mismatches (called: FMM, fraction of matches+mismatches) が0.8以上になるリードがマッチと見なされる。ペアエンドシーケンスでは、片リードだけしかこの基準を満たしてなければdiscardされる。

f:id:kazumaxneo:20180502111426j:plain

他にclade specificなアライメントや、検出感度のパラメータが設定できる。

f:id:kazumaxneo:20180502112925j:plain

最後にシーケンスデータのfastqをアップロードする。gz圧縮にも対応している（plain, gzipped (.gz) or compressed (.Z) fastq）。

f:id:kazumaxneo:20180502110459j:plain

Isolateをクリックしてペアエンドのファイルを選択し、Uploadをクリック。アップロードが終わると自動で解析がスタートする。

出力

公式の出力説明

https://cge.cbs.dtu.dk/services/MGmapper/output.php

混雑しており、テストランできなかったが、本来はpreprocessingしたfastqを使い、データベースにhitした種の存在量がプレーンテキストとexcelファイルで出力される。存在量はゲノムサイズで正規化されている。データベースにhitしなかったfastqをダウンロードすることもできる。

感想

混雑時は、ランまで時間がかかるためe-mailアドレスを記載するよう促されます。ゲノム特異的なプライマを設計するRUCSツール（紹介）と同じサーバーを使っているようですが、RUCSをテストした時は、結果のメールが届くまで2日かかりました。メタゲノムを処理するMGmapperは結果が出るまでさらに時間を要するかもしれません。余裕を持って実行してください。

引用

MGmapper: Reference based mapping and taxonomy annotation of metagenomics sequence reads

Thomas Nordahl Petersen, Oksana Lukjancenko, Martin Christen Frølund Thomsen, Maria Maddalena Sperotto, Ole Lund, Frank Møller Aarestrup, and Thomas Sicheritz-Pontén

PLoS One. 2017; 12(5): e0176469.