2020 6/19 説明追加
相同配列の解析では、マルチプルシーケンスアラインメント(MSA)の計算がボトルネックになっている。特にリボソームRNA(rRNA)のようなマーカー遺伝子の場合、数百万の配列がすでに公開されており、個々の研究で数十万の新しい配列を簡単に作成することができる。このような数に対応するための方法が開発されてきたが、精度の要求を満たすためにはさらなる改良が必要である。
本研究では、SILVAリボソームRNAプロジェクトが提供するrRNA遺伝子データベースのアラインメントに使用したSILVA Incremental Aligner (SINA)を紹介する。SINAは、k-mer検索とpartial order alignment (POA) の組み合わせを用いて、非常に高いアライメント精度を維持しつつ、高いスループット性能要求を満足させる。SINAは、一般的に使用されている高スループットMSAプログラムPyNASTおよびmothurと比較して評価された。3つのBRAliBase IIIベンチマークMSAは99.3、97.6、96.1の精度で再現できた。38,772の配列からなるより大きなベンチマークMSAは、1,000および5,000の配列からなるリファレンスMSAを用いても98.9および99.3%の精度で再現できた。SINAは、実行されたすべてのベンチマークにおいて、PyNASTおよびmothurよりも高い精度を達成することができた。
ここではSINAを使ったSILVAのrRNA探索と分類、およびツリーへの視覚化のサービス、ACTを簡単に紹介します。
https://www.arb-silva.de/aligner/ にアクセスする。
データのアップロード
1、配列をアップロードする。既にrRNAと分かっている配列だけ入力しても良いし、de novo transcriptomeのアセンブリ配列全体がそれほど大きくなければ、それを登録してSSU / LSU rRNAを探索することも可能(サイズ制限あり)。
2、SSUかLSUかを選択する。SSUの方がデータベースは充実している。
SILVAが全てのrRNA配列を管理しているわけではないです。真核生物のrRNA配列などを探索する場合は特に注意して下さい、
3、Search and classifyにチェックを付け、Min identityを指定する。デフォルトでは0.95だが、データベースから遠い配列だと0.95では見つからない。
4、Compute treeにチェックをつける。Denovo including neighborを選ぶと、近いrRNA配列を含めて系統推定してくれる。
5、デフォルトでは近似のFastTree。非常に早く終わる。
6、SSUだと右下からDomainを選択できる。間違えないようにする。
LSUだと選べるデータベースが限定される。release138で選べるGTDBも選択できない。domainも選択できなくなる。
7、他のパラメータを決めてRn toolをクリック。サブミットに成功すると、下のジョブ管理ウィンドウに進捗が表示される。
出力内容
ジョブが終わると多重整列結果、系統推定結果のnewickファイル等をダウンロードしたり、その場で視覚化できるようになる。
View in wasabi => Aligned sequence with neighbors
Denovo including neighborを選んでいれば、SILVAの近いrRNAも含めて多重整列、系統推定が行われる。
取得した配列がrRNA配列なのか、部分的な相同性しか示さない異なる配列なのか視覚化すれば明確にわかる。
SILBAの配列も含めた多重整列結果やnewickファイルはダウンロードできる。近似の最尤法などに頼りたくないならローカルマシンで計算を行えばよい。
引用
SINA: Accurate high-throughput multiple sequence alignment of ribosomal RNA genes
Elmar Pruesse, Jörg Peplies, Frank Oliver Glöckner
Bioinformatics, Volume 28, Issue 14, 15 July 2012, Pages 1823–1829