Curated BLAST for Genomesは、目的のゲノム内のプロセスまたは酵素活性の候補遺伝子を見つける。通常、各タンパク質について単一の活性を予測するアノテーションツールとは対照的に、Curated BLASTは、ゲノム中のタンパク質のいずれかが、関連する特性化されたタンパク質と類似しているかどうかを問い合わせる。酵素名やEC番号のようなクエリが与えられると、Curated BLASTは10万以上の特徴付けされたタンパク質のキュレーションされた記述を検索し、関連する特徴付けされたタンパク質と目的のゲノム中の予測されたタンパク質を比較する。遺伝子モデルにエラーがある場合、Curated BLASTはゲノムの6フレーム翻訳も検索する。Curated BLASTはhttp://papers.genomics.lbl.gov/curatedで利用できる。
ある微生物のゲノム配列が与えられたとき、その生物がどのような能力を持つのか、例えばどの栄養を必要とするのか、あるいはどのエネルギー源を利用できるのかを予測したいことがよくある。あるいは、その微生物がある能力を持っていることが分かっていて、それに関係する遺伝子を見つけたい場合もある。科学者はしばしば、関連遺伝子を見つけるために自動遺伝子アノテーション法を使用するが、自動アノテーションは曖昧であったり不正確であったりすることが多い。Curated BLASTは、自動化されたアノテーションに頼ることなく、能力の候補遺伝子を見つける。まず、Curated BLASTは、機能が実験的に研究され、そのキュレーションされた記述がクエリと一致するタンパク質(通常は他の生物由来)を見つける。次に、目的のゲノムから類似タンパク質を検索し、候補のリストを返す。Curated BLASTは高速で、自動アノテーションでは見逃される関連遺伝子をしばしば発見する。
https://papers.genomics.lbl.gov/cgi-bin/genomeSearch.cgiにアクセスする。
検索したいデータベースを選び、属名や株名、アクセッションIDなどで検索する。
Azospiraと入れてFind Genomesをクリック。
複数ヒットした場合はゲノム左のボタンを選択し、下のウィンドウに探したいタンパク質のdescriptiionを記入する。
ここでは論文で説明に使用されている”perchlorate”と入れた。
出力例
PaperBLASTのデータベースで、'perchlorate' に一致するキュレーションされたエントリーが8件見つかり、Azospira oryzae PSに関連するタンパク質が4つ見つかった、と出ている。検索結果はタンパク質に対するベストアラインメントの同一性パーセント×カバー率パーセントでソートされている。
(注; ゲノムやタンパク質の記述によってはヒットがない場合もある)
論文に説明がある。
”Curated BLASTがゲノム中の3つのタンパク質を同定するのに数秒かかり、その全長は、推定過塩素酸還元酵素の3つのサブユニットと80%以上同一であった。この推定過塩素酸還元酵素は近縁種(Azospira oryzaeは以前はDechlorosoma suillumと命名されていた)のもので、遺伝学的アプローチにより同定され(2)、Swiss-Protにキュレートされている(3)。PS株由来のタンパク質のうち2つは、実際に過塩素酸を還元することが証明されている(PcrAB)(4)が、これはどのデータベースにも反映されていない。PS株のタンパク質がSwiss-Protのタンパク質とよく似ていることから、アノテーションを付けるのはまだ簡単だと思われるかもしれないが、2018年11月現在、RefSeq (5)、RAST (6)、KEGG (7)のいずれも、これらのタンパク質のいずれにも過塩素酸還元酵素としてのアノテーションは付けられていない。RASTとKEGGでは、これらのタンパク質は硝酸塩還元酵素として誤ってアノテーションされている。過塩素酸還元酵素は、遺伝子アノテーションを使用するよりもCurated BLASTを使用した方がタンパク質を見つけやすいことを示している。”
とある。自動アノテーションが信頼できないようなケースで、Curated BLASTが役立つことが分かる。続けて説明はこうある。
”Curated BLASTは、A. oryzaeのゲノム中に過塩素酸還元酵素とある程度の類似性を持つ別のタンパク質Dsui_2508を発見した。アラインメントは過塩素酸還元酵素サブユニットの"38%だけををカバーし、類似性は控えめな43% id.であることから、Dsui_2508は異なる機能を持つ可能性が示唆された。”
上の画像では数値は異なるが4つ目のヒットがそれに近い。Curated BLASTは、一次配列は類似しているが、やや距離があり機能が異なる事が推測されるタンパク質を探索するためにも役立つ。
上のヒット1つを拡大した。3つのアノテーションソースからのタンパク質機能の記述がある。3つは、上からmetacyc(下で説明)、PDB、uniprotとなっている。これら独立したデータベースのアノテーションを見て、どのような機能を持っているか推測する。
左上にはヒットしたタンパク質のNCBI proteinやNCBI assemblyへのリンクがある。右端上にはPaperBLASTへのリンクが含まれていて、アノテーションからどのような文献でこの記述が過剰に出現しているのかなどの情報から、タンパク質の機能について調べていくことも出来る(紹介)。
3つのアノテーションのうち、METACYCへのリンク。METACYCは代謝と酵素のデータベースであり、酵素であれば、その酵素が触媒する反応を確認することができる。
検索結果のamino acid idenntity (%)からはアラインメント結果を確認できる。
Search for Curated Proteinsからは、ゲノムを指定せずにdescriptionで検索することもできる。
トップページでは、自分のゲノムあるいはamino acidのfastaファイルをアップロードして検索することもできる。
Curated BLASTはゲノムに対しては6フレーム翻訳サーチを行う。予測タンパク質に対して検索するよりも数倍時間がかかるため、Curated BLASTはまず予測タンパク質に対して検索を行ってその結果を表示し、その後、ユーザーが予測タンパク質へのヒットを調べている間に6フレーム翻訳に対して検索を行う。この方法はNCBIアセンブリのフレームシフトエラーにより自動アノテーションでは見つけられないタンパク質を探すためにも有効(論文より)。
コメント
更新情報がないので、データベースは2019年当時のままである可能性があります。ご注意下さい。
引用
Curated BLAST for Genomes
Morgan N Price 1, Adam P Arkin
mSystems. 2019 Mar 26;4(2):e00072-19. 2019 Mar-Apr
関連
https://kazumaxneo.hatenablog.com/entry/2019/09/06/073000
https://kazumaxneo.hatenablog.com/entry/2020/06/26/133201