macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Uniprotデータベースに対する高速なタンパク質ホモロジーサーチを行う SANSparallel

 

 近年、シーケンスの数が著しく増加している。これにより、データベース検索(ref.1〜4)がますます長くなり、無料のコンピューティングサービスと事前に計算されたデータベースが閉鎖に追い込まれたりまたは依存するようにクラウドソーシング(ref.5〜7)に依存するようになった。 SANSparallelは、タンパク質配列を入力として受け取り、瞬く間に最も近い配列の近似セットを返すWebサーバーである。 Webサーバーの中核となるのは、Uniprotの9000万のシーケンスとクエリタンパク質を比較するのにほんの数秒しかかからない高速データベース検索エンジンである(ref.8)。 SANSparallelは、以前のsuffix array neighborhood search (SANS) アルゴリズムの再実装、改善、および並列化されたバージョンである(ref.9)。データベースにインデックスを付ける新世代の高速データベース検索プログラムに属しているため、クエリに一致する短いワード(シード)をデータベースサイズ(ref.10〜15)に関係なく効率的に見つけることができる。次に、シードextensionによって、または1つのデータベースタンパク質に一致するシードの数をカウントすることによって、類似の配列を特定できる。サフィックスアレイには、シードの長さを調整して選択性を高めることができるという利点がある。一方、感度を高めるために、間隔を空けたシードと縮小アルファベットが導入された(ref.16)。これらの手法を実装するプログラムは、BLASTよりも桁違いに高速である。ただし、BLASTの感度に合わせるのは困難になる。これらのアプローチは、マッチングが非常に近く、明確なシグナルを与えるマッピング問題に非常に適している。以前に、このアプローチが50%を超えるタンパク質配列検索で確実に機能することを発見した(ref.9)。ここでは、より多くのベンチマークを提示し、SANSparallelが最近公開されたプログラムと比較して非常に競争力があることを示す。

 SANSparallelは、クライアント・サーバー(wiki)として実行される。サーバーはデータベースをメモリに保持し、検索を実行する。データベースごとに個別のサーバーがある。クライアントプロセスはサーバーに接続し、クエリシーケンスをサーバーに送信し、結果をユーザーに送信する。複数のクライアントがサーバーに接続できる。同時クライアントには、ラウンドロビン方式(wiki)で一度に1つのクエリが提供される。ユーザーの観点からすると、これはクエリの処理にかかる時間がサーバーの負荷に比例して増加することを意味するが、すべてのユーザーが同様の速度を経験する。応答時間の線形性は、少なくとも100の同時クライアントまで維持された(データは示さない)。

 Webサーバーの基礎となるのは、適切なオプションを使用してクライアントプログラムを呼び出し、データベース検索結果を後処理して目的の出力形式に変換するCGIスクリプトである(論文図1)。一部の処理ステップでは、サードパーティソフトウェアが使用される。 SANSparallelの主な結果は、データベースから取得した一連の類似タンパク質のセットである。この一連のシーケンスとクエリシーケンス間のペアワイズアラインメントは、FASTA(ref.17, pubmed)を使用して生成される。同じプログラムを使用して、BLASTのようなレポートを出力する。ペアワイズアラインメントはクエリシーケンスに対してスタックされ、挿入を省略してギャップアラインメントを生成する。スタックされた配列は、Mview(ref.18)で色付けするか、Skylign(ref.19)に送信してシーケンスロゴを生成できる。アライメントされたシーケンスまたはアライメントされていないシーケンスは、FASTA形式で出力し、アライメントの視覚化と編集のためにJalview(ref.20)に送信できる。

(一部省略)

SANSparallelはLinuxオペレーティングシステムで開発され、openmpiを使用して並列化された。 Webサーバーは、500 Gbメモリと64コアのコンピューターのクラスターで実行される。 SANSparallelは、SANSのレガシーコード(ref.9)、Cのソケット通信、PerlCGIスクリプトを使用してFortranで作成された。データベースのメモリおよび追加のワークスペースへの保存には、アミノ酸あたり約9バイトかかる。

 (以下略)

 

tutorial

http://ekhidna2.biocenter.helsinki.fi/sans/Tutorial.html

 

f:id:kazumaxneo:20190825185647p:plain

Flowchart of the SANSparallel web server. マニュアルより転載

 

 

使い方

http://ekhidna2.biocenter.helsinki.fi/cgi-bin/sans/sans.cgi にアクセスする。

f:id:kazumaxneo:20190825185516p:plain

 

アミノ酸配列をウィンドウ内にペーストするか、"ファイルを選択"からアミノ酸配列のfastaをアップロードする。

f:id:kazumaxneo:20190827012749p:plain

データベースはUniprotKB、UniRef50、Swissprot、PDBから選択できる。 

 

引用

SANSparallel: interactive homology search against Uniprot

Panu Somervuo, Liisa Holm

Nucleic Acids Res. 2015 Jul 1; 43(Web Server issue): W24–W29

 

関連