大規模な臨床および環境のメタゲノムデータセットの高速で手頃なシーケンスにより、医療およびバイオテクノロジーのアプリケーションにおける新しい視野が開かれている。今日、地球上の微生物の約1%しか記述できていないと考えられており、メタゲノム解析はサンプル中のほとんどが未知の種を対象としている。極限環境の微生物群集は、高いバイオテクノロジーの可能性を秘めた遺伝子を含んでいる可能性があり、疾患に関連する臨床メタゲノムは、未知の病原体および既知の疾患の病理学的メカニズムを明らかにする可能性がある。サンプル内の分類群の種レベルの識別は今日可能ではないようであるが、隠れマルコフモデル( HMM)のような、人工知能ツールを含む多数の手法を使用して、これらのサンプルで既知の機能を持つ新規遺伝子を検索できる。ここでは、検索対象の遺伝子の相同性に基づいた自動モデル構築が可能で、メタゲノムで最も近い一致を見つけることができる、使いやすいWebサーバーMetaHMMについて説明する。 Webサーバーは、すでに非常に成功しているビルディングブロックを使用する:Clustal Omegaを適用することにより複数のアライメントを実行し、hmmbuildのHMMERコンポーネントを使用して隠れマルコフモデルを構築し、メタゲノム内の指定されたモデルに類似するシーケンスを見つけるためにhmmsearchを使用する。ウェブサーバーはhttps://metahmm.pitgroup.orgで公開されている。
使い方
http://pitgroup.org/metahmm/ にアクセスする。
入力はUniProt のaccession numbersになる。MetaHMMは、Clustal Omegaを使って入力配列をアラインし、hmmbuildを使ってこれらのタンパク質のモデルを構築、相同なタンパク質をメタゲノムから探索する。
ここでは右上の"Use the example model"ボタンをクリック。
UniProt accession numbers がスペース区切りで入力された。
メタゲノムのデータセットを選択する。メタゲノムデータはiMicrobeポータルに由来する。
解析にはしばらく時間がかかる。
出力
output_all.csv
出力について(README)
ユーザーカスタムのメタゲノムを検索することも可能。独自のHTTPまたはFTPストレージを用意し(ファイルホスティングサイトへのリンクは不可)、そこにFASTAファイル(fastqは不可)としてアップロードし、直接リンクを提供する。最大サイズは非圧縮で1GBになっている。
引用
MetaHMM: A webserver for identifying novel genes with specified functions in metagenomic samples
Szalkai B, Grolmusz V.
Genomics. 2019 Jul;111(4):883-885