macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Serratus Explorer

 

 公開データベースには惑星規模の核酸配列コレクションが含まれているが、このコーパスの効率的な検索方法がないため、体系的な探索が阻害されている。このデータベースは(本稿執筆時点で)20ペタベースを超え、指数関数的に増加している (ref.1)。そこで、ペタベース規模の超高速配列アライメントを可能にするクラウドコンピューティング基盤Serratusを開発した。570万サンプル(10.2ペタベース)の生物学的多様性から、RNA依存性RNAポリメラーゼという特徴的な遺伝子を検索し、105種以上の新規RNAウイルスを同定し、既知の種数をおよそ1桁増加させることに成功した。コロナウイルス、デルタ肝炎ウイルス、巨大ファージにそれぞれ関連する新規ウイルスの特徴を明らかにし、その環境リザーバーを分析した。さらに、これらのデータおよびツールからなる無料の総合データベースを構築し、現在進行中のウイルス発見革命を促進する。ウイルスの配列の多様性を拡大することは、新興の病原体の進化的起源を明らかにし、将来のパンデミックを予測・緩和するための病原体監視を向上させることができる。

 

wiki

https://github.com/ababaian/serratus/wiki

Toolkit

https://serratus.io/toolkit

 

ここではSerratus Explorerについて簡単に見ていきます。

webサービス

https://serratus.io/にアクセスする。

f:id:kazumaxneo:20220202094547p:plain

Exploreをクリック。

 

Explore NT SearchかExplore RdRP Searchを選ぶ。NT Searchは、すべてのRefSeq脊椎動物ウイルス(N = 2,849)(レトロウイルスを除く)およびGenBankコロナウイルス科配列(N = 10,101)から既知の完全ゲノムを高感度に検索する。RdRP Search は、新規 RNA ウイルスのうち、特徴的な遺伝子である RNA-dependent RNA Polymerase (RdRP) に着目した検索方法となっている。

f:id:kazumaxneo:20220202094623p:plain

 

Explore NT Searchに入った。

f:id:kazumaxneo:20220202095243p:plain

 

Explore NT Searchでは、ユーザーが選択したウイルス科に属する全ての「pangenome」エントリが返される。ウイルス科を選択後、下のVIew Matchesをクリックする。GenBankとSRA IDからの検索にも対応している。

f:id:kazumaxneo:20220202095529p:plain

 

Alignment identity (%)を調整してマッチするエントリ数を調整できる。変えるにはゲージを左右に動かす。

f:id:kazumaxneo:20220202100203p:plain

Score: マップされたリードの数と参照配列のスパンカバー率を考慮したヒューリスティックなスコア。80以上の場合、完全なRdRPが得られることが多く、50以上の場合、部分的なRdRPが得られることが多く、10以上の場合、部分的なRdRP配列が得られることがある ( RdRP Searchのマニュアルより)。

 

Coronaviridae科をデフォルト設定で検索すると3640エントリヒットした。

f:id:kazumaxneo:20220202095655p:plain

 

SRR1192321をクリックした。

f:id:kazumaxneo:20220202100349p:plain

このSRAに含まれるウィルス科のPangnome Score、Average Read Identity、Number of Aligned Readsが右側に表示される。

 

カーソルを合わせると数値が表示される。

f:id:kazumaxneo:20220202100936p:plain

上のメニューは、NCBI SRAへのリンク、NCBI Sequence Read ArchiveのBrowseへのリンク、 RdRP Searchの結果へのリンク、jbrowseを使った全リファレンスゲノムへのアラインメント、そのbamファイルのダウンロード、サマリーレポートのダウンロードのボタンとなっている。

f:id:kazumaxneo:20220202101055p:plain

 

チュートリアルで説明があるが、unknown virusを探すためには、50〜100のスコアで同一性が50%未満〜90%の範囲に注目する。

f:id:kazumaxneo:20220203001952p:plain

 

ヒートマップの気になったデータをクリックすると、そのデータのウィルス科

の分布が下に展開される。

f:id:kazumaxneo:20220203002209p:plain

 

RdRP Searchも基本的な使い方はNT Searchと同じになる。

f:id:kazumaxneo:20220202182115p:plain

 

wikiには未知ウィルスを探す実践的なガイドがあります。また、この巨大なデータを構築・管理するための予算についての興味深い説明もあります。アクセスしてみて下さい。

Find_novel_viruses_A_serratus.io

引用

Petabase-scale sequence alignment catalyses viral discovery
Robert C. Edgar, Jeff Taylor, Victor Lin, Tomer Altman, Pierre Barbera, Dmitry Meleshko, Dan Lohr, Gherman Novakovsky, Benjamin Buchfink, Basem Al-Shayeb, Jillian F. Banfield, Marcos de la Peña, Anton Korobeynikov, Rayan Chikhi & Artem Babaian 
Nature (2022)