macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NCBI BLASTのClusteredNR database

 

近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、非常に近縁な生物種から得られた同じ種類のタンパク質が結果の大部分を占めることがある。しかし、BLASTサーチでは、必ずしもクエリの配列に近い情報の重要性が高いわけではない。クエリの配列とは進化的に遠かったり、少しだけ似ている別の機能を持った配列の情報を取得することが重要な事も多い。BLAST実行前にヒット数を増やしてジョブを投げればより遠縁なヒットも得られるが、NCBI BLASTはリソース制限を行っており、制限を超えたジョブは途中で止まってしまう。また、ヒット数が増える事は抜本的な解決にはなっておらず、却って視認性を悪くしてしまう。

NCBI ClusteredNRデータベースは、2022年に登場した、MMseqs2を用いて類似した配列をクラスタリングして得られた、冗長性を減らしたNRデータベースとなっている。各クラスタには互いに90%以上同一で、最長の配列長の90%以内の長さのタンパク質が含まれている。 2024年現在でもExperimental だが、データベースをクラスタリングすることで、元のデータベースに含まれる生物やタンパク質の多様性をよりよく表現したデータベースとなっていて、検索にかかる時間も短くなってるなど、状況によってはデフォルトのNRデータベースより扱いやすい。通常のBLASTとは結果の見方が異なるので、使い方を簡単に確認しておきます。

 

NCBI insights

https://ncbiinsights.ncbi.nlm.nih.gov/2022/05/02/clusterednr_1/

 

webサービス

NCBI BLASTPかBLASTXにアクセスする。

 

Choose search set => Experimental databaseでClusteredNRを選択する。

Organisumの欄で指定することで、BLASTサーチの対象範囲を特定の分類のみに制限できる。制限するには、生物の一般名、属名+種小名の二命名法、またはNCBI taxIDで指定する。

 

ここではE.coliの60S ribosomal protein L21(link)のアミノ酸配列を使用した。パラメータはデフォルトとした。

 

出力例

通常のBLAST結果と異なり、結果はクラスターごとにまとめられる。

 

クラスタの情報として、アノテーションの充実した代表タンパク質の情報が表示されている。

クラスタは90%以上同一で、最長の配列長の90%以内の長さでクラスタリングしているので、複数の生物(種)の配列が含まれる場合がある。

 

右端のPer identityの列を見ると、トップヒットが100%、次が91%となっていて冗長なヒットが抑制されていることが分かる。

 

例えば上の画像の3つ目のヒットには 8 members, 58 organismとある。クリックすると、そのクラスタに含まれる配列の情報が表示される。

 

このパネルの右上のボタンから、全配列をダウンロードできる。

また、クラスターの全メンバーのMSAを実行したり、含まれる配列に対してBLASTのジョブを投げたりもできる。

 

8配列含まれるクラスタへのBLAST結果(BLAST alignmentボタン)

 

多重整列結果

 

クラスタは事前定義されており、探索は高速に実行できます。クエリと類似した配列を集めてきたい時にも便利だと思います。

引用

Database resources of the national center for biotechnology information
Eric W Sayers, Evan E Bolton, J Rodney Brister, Kathi Canese, Jessica Chan, Donald C Comeau, Ryan Connor, Kathryn Funk, Chris Kelly, Sunghwan Kim, Tom Madej, Aron Marchler-Bauer, Christopher Lanczycki, Stacy Lathrop, Zhiyong Lu, Francoise Thibaud-Nissen, Terence Murphy, Lon Phan, Yuri Skripchenko, Tony Tse, Jiyao Wang, Rebecca Williams, Barton W Trawick, Kim D Pruitt, Stephen T Sherry

Nucleic Acids Res. 2022 Jan 7;50(D1):D20-D26. doi:0.1093/nar/gkab1112.