NCBI SRAで検索する時のtips - macでインフォマティクス

NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。

metagenomeと検索してみると4,566,384件ヒットした（2024年4月実行）。

metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒットしている。meta16Sはメタゲノムでないが、metagenomeの定義が曖昧であるために、このように関係ないデータがヒットする事がある。

このような時はNOTで絞り込む。”metagenome NOT 16S”と検索したところ、2,656,920ヒットに減ったが、今度はampliconがトップヒットしている。

ampliconも除外する。”metagenome NOT 16S NOT amplicon"と検索すると850,797ヒットにまで減った。

論理演算子として、NOT以外にANDやORが利用できる。土壌のメタゲノムに関心があるとして、soilを加える。87,578ヒットまで減った。

NCBI SRA Run Selectorでさらに絞り込むには、2万以下（数値は間違っているかもしれません）のヒットまで減らす必要があるので、もう少し絞り込む。

左のメニューから、DNA、fastqを選択した。メタゲノムアセンブリ後のbinningにはロングリードアセンブリが有効で、さらに距離のある近縁な株間の配列を区別して組み立てるにはエラーの少ないpacbioが最適なので、ここではpacbioに限定した。314ヒットになった。ロングリードのメタゲノムは希少であることが分かる。