macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ペタバイト規模の公共配列リポジトリへの効率的かつ正確な検索を行う MetaGraph

 

 

 公開リポジトリで利用可能な生物学的シーケンスデータの量は急速に増加しており、生物医学にとって重要な資源を形成している。しかし、これらのデータを効率的かつ正確に全文検索可能にすることは依然として課題である。本研究では、大規模なシーケンスセットを表現するための効率的なデータ構造とアルゴリズムを基盤とする。annotated de Bruijn graphsを用いて、DNA、RNA、またはタンパク質シーケンスの大規模セットをスケーラブルにインデックス化することを可能にする方法論的フレームワーク「MetaGraph」を提案する。7つの公開ソースからのデータを統合し、ウイルス・細菌・真菌・植物・動物・ヒトを含む全生物系統にわたる1,880万のユニークなDNA/RNA配列集合と2,100億のアミノ酸残基を全文検索可能にした。大規模な配列リポジトリ(生配列67ペタベースペア(Pbp))における費用対効果の高い全文検索の実現可能性を実証した。小規模クエリ(最大1メガベースペア(Mbp))ではオンデマンドコスト約100米ドル、大規模クエリではクエリ対象Mbpあたり0.74米ドルまで低減可能である。すべての公開生物学的配列を高度に圧縮した表現は、数台の民生用ハードドライブ(総コスト約2,500米ドル)に収まることを示し、これによりコスト効率の良い利用と、さらなる解析のための容易な移動が可能となる。既存アーカイブから興味深い関連性を抽出する複数の実用的なユースケースを探求し、統合解析における本インデックスの活用を実証するとともに、こうした機能が生物医学研究の進展を促進する基盤となり得ることを明らかにする。

 

Docs

https://metagraph.ethz.ch/docs

Help

https://metagraph.ethz.ch/help

 

Github

 

webサービス

https://metagraph.ethz.ch/にアクセスする。

中央のStart Searchをクリックする。

 

配列をサブミットするページに移動する。

"helpより MetaGraphクエリサービスを世界中の研究コミュニティに無料で提供できることを大変嬉しく思います。インフラは単一の研究室によって維持管理されており、継続的に進化している点にご留意ください。メンテナンスのためサービスが一時的に利用できない場合や、需要の高まりにより一時的な待ち時間が発生する場合もございますが、ご理解ください。その際は、しばらくしてから再度お試しください。代替手段として、以前のバージョンのウェブサイトおよびAPIも利用いただけます。"

 

FASTA配列を貼り付けるか、.fasta/.faファイルをアップロードする。塩基配列アミノ酸配列に対応している。

Web版では1回のクエリあたり最大10配列の制限がある。より大規模なバッチ処理には、Webアプリケーションプログラミングインターフェース(API)またはコマンドラインインターフェース(CLI)を使う(helpより)。

 

データベースを選択する。デフォルトではリファレンスアセンブリセット(RefSeq、UHGG、Tara Oceans)が選択されているが、2個以上選択することもできる。

選択数に応じて、配列サイズやindexサイズ、配列数などが表示される。検索時間の目安にもなると思われる。


必要ならメールアドレスを記入し、検索を開始する。

 

完全一致で検索が開始される。データベースとの同一性が低い、またはノイズの多い配列の場合はアラインメントに切り替えて検索される。

 

下には高度な検索メニューが用意されている。

デフォルトでは最大500ヒットとなっている。完全一致は高速で、アラインメントは時間がかかるがより高感度。閾値を上げると、ヒット数は減少するが信頼性が高まる(helpより)。

 

Example Search結果を見てみる。"2 short sequences against metagenomes and all assembled sequences"を使ってみる(実際に検索が実行される)。

 

出力例

MetaGraphはデータベースとアクセッション番号ごとにヒットを整理して返す。BLASTと同様に結果は関連性でランク付けされるが、E-valueの代わりにMetaGraphは発見閾値とk-merマッチングを用いて有意な一致を特定する。

 

アクセッション、データベース、スコア、生物名、地理的位置、BioSample、BioProject、DNA seqかRNA seqかなど表示される。

helpより
Score (K-mer coverage) :  マッチ/アラインメントでカバーされたクエリの割合。入力配列のデータベース内での検出率を示す。

Normalized Score: Score を配列長で正規化したもの



列ヘッダーをクリックして同一性、カバレッジ、その他の指標で並べ替えできる。

 

結果はCSVまたはJSON形式でダウンロードできる。

 

上のView on Mapボタンをクリックするとサンプルの地理的位置が可視化される。

 

Database indexes

https://metagraph.ethz.ch/indexes

自分の関心のある配列がどのDBに含まれてそうか確認することができる。2025年10月現在indexされた配列サイズ21PBとなっている。

 

helpより

  • 検索でヒットがない場合は、検出閾値の引き下げ(より寛容なマッチングには0.5以下)、異なるデータベースの選択 を検討する。また入力データがFASTA形式で適切にフォーマットされていることを確認する。

引用

Efficient and accurate search in petabase-scale sequence repositories

Mikhail Karasikov, Harun Mustafa, Daniel Danciu, Oleksandr Kulkov, Marc Zimmermann, Christopher Barber, Gunnar Rätsch & André Kahles 

Nature (2025)

 

Nature news

‘Google for DNA’ brings order to biology’s big data

"インターネットにはGoogleがある。今や生物学にはMetaGraphがある。本日『ネイチャー』誌1で詳細が発表されたこの検索エンジンは、公共リポジトリに保管された膨大な生物学的データを瞬時に選別できる。"

 

関連

 

コメント

非常に簡単にですが紹介しました。Web版はアクセスが多いためか重いです。結果のページが表示されないときは少し時間を置いて再チャレンジされてみるか、ローカルで試してもいいかもしれません。