SRA
ハイスループットシーケンス技術(Next Generation Sequencing; NGS)は、多様な生物学的探究に取り組む研究者によってますます活用されるようになっている。最新のシーケンシングの驚くべきスケールと効率を活用し、ゲノム解析からタンパク質-核酸相互作用…
NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…
2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…
シークエンシングデータなどをDDBJのファイルサーバにアップしてDRAの登録申請を行う場合、D-wayのDRAで情報を記載後に実行する自動validationのステップがあります。このプロセスでは、ファイル受付サーバからのシークエンシングデータのロードにSRA Toolki…
Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…
2022/11/26 追記 SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/…
2022/05/20 論文引用 タイトルの通りのツール。簡単に紹介します。 `ffq` (Fetch FastQ) is a new command line tool that makes it easier to find #sequencing data from the SRA / GEO / ENA. Importantly `ffq` does not download files, just file meta…
新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bio…
公開データベースには惑星規模の核酸配列コレクションが含まれているが、このコーパスの効率的な検索方法がないため、体系的な探索が阻害されている。このデータベースは(本稿執筆時点で)20ペタベースを超え、指数関数的に増加している (ref.1)。そこで、…
ハイスループットRNA-sequencing(RNA-seq)は、その低コストと高いカバレッジにより、ここ10年で最も人気のある遺伝子発現プロファイリング技術になった。その結果、植物界からのRNA-seqライブラリの数は近年飛躍的に増加している。トウモロコシ、イネ、ダ…
公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以…
2021 11/11 ツイート追加 nf-core/fetchfastqは、公共のデータベースからメタデータと生のFastQファイルを取得するバイオインフォマティクス・パイプラインである。現在、このパイプラインはSRA / ENA / GEOのIDをサポートしている(使用方法のドキュメント…
Genome Warehouse (GWH) は、幅広い種のゲノムアセンブリデータを収蔵する公開リポジトリであり、ゲノムデータの提出、保存、公開、共有のための一連のウェブサービスを提供している。China National Center for Bioinformation (CNCB, https://bigd.big.ac.…
2022/06/25 タイトル変更 微生物群集の遺伝的可能性に着目したマイクロバイオーム研究(メタゲノム研究)は、微生物生態学の分野では標準的なものとなった。MG-RASTとSequence Read Archive (SRA)という2つの主要なメタゲノムリポジトリには、202,858以上の…
2020 4/10 タイトル修正、説明と図追加 RaNA-Seqは、RNA-Seqデータを迅速に解析・可視化するためのクラウドプラットフォームである。FASTQファイルの定量、品質管理指標の計算、発現変動遺伝子の解析の実行、機能解析による結果の説明を可能にすることで、数…
2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Meta…
タイトルの通り、Bioprojectの全fastqをダウンロードする。 インストール ubuntu18.04LTSでテストした。 Entrez Directのインストール apt update && apt install -y ncbi-entrez-direct#condaconda install entrez-direct fasterq-dumpは以前紹介しています…
2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…
2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…
2021 1/9 ツイート追記 10年前の最初の記述以来、RNAシーケンス(RNA-seq)はトランスクリプトームにおける強力な方法となり、非常に正確な遺伝子発現の定量を可能にした[ref.1]。シークエンシングのコストが下がるにつれて、RNA seqのデータは科学文献でよ…
2019 4/29 複数ファイルダウンロード例、8/13 ダウンロード例のコード修正、12/18 インストールエラー修正、12/21 実行例追記 2020 1/21 ダウンロード例のコード修正、4/1 リンク追加 2023/07/22 docker イメージ例追加 タイトルの通りのコマンド。 使い方だ…
2022/04/20 タイトル修正 いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世…
NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…
2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…
2019 1/17 タイトル修正 2019 4/16 condaインストール 2019 4/19 ダウンロード方法追記 2019 5/9 パラメータ追記 2019 5/13 test追加 2020 4/16 help更新 アーキアやバクテリアなどの微生物は、土壌や海洋から温泉や深海に至るまで、事実上あらゆる場所で発…
DDBJ、EMBL-EBI、NCBIのSRAの 検索エンジンは情報が多く、簡単にシーケンスデータを取ってくるにはやや使いにくい。ExplorerはSRAの検索ツール。Phil Ewels さんが作成されたwebツールで、SRAのAPIを使い、高速にSRAのデータを検索する。シンプルなインター…