2024/10/27 文章修正
NCBI BLASTのヌクレオチドデータベースはこれまでデフォルトがntでしたが、2024年の夏からはコアヌクレオチドデータベース(core_nt)に切り替わっています。
詳しくはNCBI insightsで説明されています。
NCBI insights: Get Faster, More Focused Search Results with NCBI’s New BLAST Core Nucleotide Database (core_nt)
https://ncbiinsights.ncbi.nlm.nih.gov/2024/07/18/new-blast-core-nucleotide-database/
ntデータベースに対するBLAST core_ntの利点(NCBI insightsより)
- より高速な検索が可能
- ほとんどの検索で同様の上位結果が得られる
- 高度に発現している生物の冗長性を減らすことができる
- ダウンロードが容易で、スタンドアロンBLASTのデータベースのダウンロードに必要なストレージ容量が少なくて済む
Fusarium redolens のキネシン配列をクエリとして検索してみます。BLASTnで使うヌクレオチドデータベースのデフォルトはcore_ntとなっています。従来デフォルトだったnr/ntを選択することもできます。
core_nt:テスト時は3~5秒で結果が表示されました。
nr/nt:テスト時は10~15秒で結果が表示されました。
nr/ntはcore_ntよりも% identityの数値が高いヒットが多数を占めています。
core_ntの欠点は近縁な別株などを区別したい時に解像度が足りない点で、より似た株が存在しても代表配列だけがヒットする傾向が見られます。そのような時はnr/ntを使う必要があります。
その他
- 全長染色体を含む真核生物のゲノムアセンブリとの検索をしたい場合は、RefSeq Reference Genomesデータベース(BLASTデータベースリストで利用可能)またはNCBI Datasetsの個々のアセンブリを使う。
引用
参考
Core_nt database not available to download?
https://www.biostars.org/p/9601710/