NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。
metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。
metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒットしている。meta16Sはメタゲノムでないが、metagenomeの定義が曖昧であるために、このように関係ないデータがヒットする事がある。
このような時はNOTで絞り込む。”metagenome NOT 16S”と検索したところ、2,656,920ヒットに減ったが、今度はampliconがトップヒットしている。
ampliconも除外する。”metagenome NOT 16S NOT amplicon"と検索すると850,797ヒットにまで減った。
論理演算子として、NOT以外にANDやORが利用できる。土壌のメタゲノムに関心があるとして、soilを加える。87,578ヒットまで減った。
NCBI SRA Run Selectorでさらに絞り込むには、2万以下(数値は間違っているかもしれません)のヒットまで減らす必要があるので、もう少し絞り込む。
左のメニューから、DNA、fastqを選択した。メタゲノムアセンブリ後のbinningにはロングリードアセンブリが有効で、さらに距離のある近縁な株間の配列を区別して組み立てるにはエラーの少ないpacbioが最適なので、ここではpacbioに限定した。314ヒットになった。ロングリードのメタゲノムは希少であることが分かる。
数が減ったのでRun selecterのリンクが出現している。
メタデータも確認したいのでRun selecterにジャンプし、アクセッションIDとそのメタデータテキストを取得する。
補足
検索ウィンドウ下のadvancedでは、Bioproject、Biosample、生物名、出版年、登録者名などで絞り込む事もできます。
Run selecterは以前に簡単に紹介しています。
https://kazumaxneo.hatenablog.com/entry/2022/09/20/233140
参考
https://www.lib.m.u-tokyo.ac.jp/manual/pubmedmanual.pdf