macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

download

NCBIのゲノムや遺伝子配列をコマンドラインでダウンロードするNCBI Datasetsツール

2024/09/17追記 Githubより NCBI Datasetsは、NCBIデータベース全体のデータを簡単に収集できるリソースである。コマンドラインインターフェース(CLI)ツールやNCBI Datasetsウェブインターフェースを使って、遺伝子やゲノムの配列、アノテーション、メタデ…

公開されているシークエンシングデータを取得する統合ツール iSeq

ハイスループットシーケンス技術(Next Generation Sequencing; NGS)は、多様な生物学的探究に取り組む研究者によってますます活用されるようになっている。最新のシーケンシングの驚くべきスケールと効率を活用し、ゲノム解析からタンパク質-核酸相互作用…

ライフサイエンスのための包括的なフォーマットコンバーター BioConvert

2023/07/04 追記 バイオインフォマティクスは、長年にわたって開発されてきた数多くの標準やフォーマットで知られる分野である。このフォーマットの多さは時に補完的であり、しばしば冗長であるため、バイオインフォマティクスのデータ解析者に多くの課題を…

1行のコードでゲノムデータベースへの様々な問い合わせを行う gget

ゲノムデータの解釈には、既存のリファレンスデータベースとの関連で結果を評価することが繰り返し課題となっている。コマンドラインやPythonの利用者が増加する中、大規模な公開ゲノムデータベースの多様なコレクションに保存されているキュレーションされ…

GEOとSRAからデータおよびメタデータをダウンロードする GEOfetch

Gene Expression Omnibusは、二次解析のための重要な生物学的データ源となっている。しかし、Gene Expression Omnibus (GEO)からデータやメタデータを標準的なアノテーションフォーマットでダウンロードするシンプルでプログラム的な方法は存在しない。GEOfe…

細菌プラスミドのデータベース PLSDB

プラスミドには、病原因子や抗生物質耐性機構をコードする遺伝子が含まれていることが知られている。メタゲノミクスデータ処理におけるその関連性は着実に高まっている。しかし、メタゲノム実験の普及と規模の拡大に伴い、報告されるプラスミドの数も急速に…

ヒトの遺伝子と転写産物の総合カタログ CHESS 3

ヒト遺伝子のCHESSデータベース(Comprehensive Human Expressed SequenceS)は、Genotype-Tissue Expression (GTEx)プロジェクトで作成されたヒト53部位における約1万件のRNAシーケンス実験から構築され、さらに他のデータベースからの遺伝子を加えて、タン…

NCBI SRA Run Selectorを使う

2022/11/26 追記 SRA Run Selectorは、SRAに保存されている大規模なランのセットを取り出し、どのランを解析に使用するかを絞り込み、結果をメタデータとしてダウンロードすることができる。 NCBI-Hackathons/SRA Run Selector Tutorial https://github.com/…

真菌のコア遺伝子データベースとゲノムワイド系統解析のためのパイプライン UFCG

系統発生学では、生物の進化的関係をゲノム情報によって研究する。各生物から関連する遺伝子を抽出し、多重配列アラインメントを構築し、系統樹によって進化関係を再構築するのが一般的なアプローチである。この解析には、分類群内での効率的な自動化を可能…

NCBIからmitochondria DNAをダウンロードする。

NCBIのOrganelle Genome Resourcesでは、オルガネラゲノム配列をダウンロードできます。ミトコンドリアDNAのfastaファイルをダウンロードしてみます。 NCBIのOrganelle Genome Resourcesにアクセスする。https://www.ncbi.nlm.nih.gov/genome/organelle/ 左…

ゲノム配列やシークエンシングデータを公開リポジトリから取得する getSequenceInfo

2022/07/14 誤字修正 生物学的配列は、世界中で急速に、そして指数関数的に増加している。塩基配列データベースは、様々な生物について有意義なゲノム情報を提供する重要な役割を担っている。getSequenceInfoは、GenBank、RefSeq、European Nucleotide Archi…

UniProtのデータベースから機能的アノテーションとID mappingを行う UPIMAPI

2022/07/12 修正 2023/03/05 追記 2024/05/08 追記 オミックスやメタオミックス技術は、微生物の機能を探索するための強力なアプローチだが、オミックスデータセットの大きさと複雑さにより、その解析はしばしば困難な課題となる。オミックスやメタオミック…

UniProtKBデータベースをダウンロードしてBLAST検索する。

2022/07/10誤字修正、07/12誤字修正 2022/07/28 ツイート追記 2024/10/09 追記 Universal Protein Resource (UniProt)は、European Bioinformatics Institute (EBI) (*2)とSIB Swiss Institute Bioinformaticsが共同研究して構築している知識ベースである(*1…

MG-RASTの公開データをダウンロードする mg-download.py 

MG-RAST-ToolsはMG-RAST開発者が作成した様々利用ケースに対応するためのAPI アクセスを可能にするスクリプトで、The MG-RAST metagenome portal(リンク)のレポジトリとして公開されています「。多数のスクリプトが含まれていますが、その中で、mg-downloa…

シークエンスリードアーカイブからメタデータ情報をJSON形式で取得する ffq

2022/05/20 論文引用 タイトルの通りのツール。簡単に紹介します。 `ffq` (Fetch FastQ) is a new command line tool that makes it easier to find #sequencing data from the SRA / GEO / ENA. Importantly `ffq` does not download files, just file meta…

公開されている大規模なRNA-seqデータセットを扱う recount3

新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bio…

MMseqs2 コマンド其の3 既存のデータベースをダウンロードするmmseqs databasesコマンド

MMseqs2には非常に多くの機能があります。今回はmmseqs databasesコマンドを試します。mmseqs databasesを使うと、UniProtやGTDB、NCBI nr/ntなどからMMseqs2のデータベースとしてビルド済みのデータベースをダウンロードして、MMseqs2によるホモロジーサー…

大規模な微生物の比較ゲノミクスのためのモジュラー式のツール PanACoTA

2021 9/8 修正 2021 9/9 誤字修正 2021 9/10 prokkaのバージョンによるエラー修正 (依存するライブラリの関係でpython3.7の環境に導入するように修正した), --prodigalのオプション消去 2021 10/15 docker imageのコマンド追記 2021 10/18 annotate追記 2021…

ONTのfast5形式の公開データを探してみる

NCBIはオックスフォード・ナノポアの.fast5ファイルのサブミットを受け付けていて、マニュアルによると(NCBI SRA File format guide)、fast5ファイルのセット全体をtar.gzファイルで受け付けるとある。 NCBI SRAで"fast5 ONT "と検索したところ50件ヒット…

ヒト腸内細菌のゲノムコレクション HumGut

2021/8/17 論文引用 2022/02/17 krona追記 2022/02/24 krona関係のコマンド修正 2023/12/01 説明追加 ヒトの腸内細菌叢の特徴を明らかにするために、微生物の分離とDNA配列の決定の両方が行われてきた。また,最新のバイオインフォマティクスツールを用いて…

公共のデータベースからメタデータと生のFastQファイルを取得するnf-coreのfetchngs

2021 11/11 ツイート追加 nf-core/fetchfastqは、公共のデータベースからメタデータと生のFastQファイルを取得するバイオインフォマティクス・パイプラインである。現在、このパイプラインはSRA / ENA / GEOのIDをサポートしている(使用方法のドキュメント…

フィルタリングされた、包括的なヒト腸内prokaryotesゲノムコレクション HumGut

ヒト腸内細菌叢研究の大きな課題は、検証可能な完全なヒト腸内ゲノムコレクションが一般に公開されていないことである。本著者らは、健康なヒト腸の原核生物ゲノムの包括的なコレクションであるHumgutを作成し、世界的なヒト腸内細菌叢研究の参考とすること…

様々な種のバリアント情報をまとめたデータベース Genome Variation Map(GVM)

Genome Variation Map (GVM; http://bigd.big.ac.cn/gvm/) は、ゲノム変異の公開データリポジトリである。幅広い種のゲノム変異を収集・統合することを目的としており、世界中から様々な変異タイプの投稿を受け付けており、世界中の研究活動を支援するために…

NCBI Genome のBrowse by Organism機能

2020 10/25 追記 ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリア…

バクテリアゲノムの比較ゲノム解析を行うwebサービス EDGAR

2022/03/28 URL 更新, POCP matrix追記 Bergey's Manual of Systematics of Archaea and Bacteriaより 次世代シークエンシングアプローチの展開により、完全にシークエンシングされたゲノムの数は急速に増加している。その結果、単一ゲノムだけでなく、関連…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

真核生物の予測されたタンパク質のデータベース EukProt

2020 7/23 説明追加 EukProtは、公開されている予測タンパク質セットと、真核生物の多様性を表すために選択された非注釈ゲノムのデータベースで、すべての主要なスーパーグループからの742種とorphan taxaを含む。系統図、遺伝子ファミリー進化、その他の遺…

トキシン・アンチトキシンデータベース TADB 2.0

トキシン・アンチトキシン(TA)系は、最初はプラスミド中毒(addiction)モジュールとして同定されたが、ほとんどの自由に生きている細菌の染色体上に非常に豊富に存在する。TA系は、栄養飢餓(ref.1,2)、プログラムされた細胞死(ref.3)、バクテリオファージ…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 2020 10/24 仮想環境を解くって導入するように修正 2021 5/23 conda => mambaに修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Meta…

NCBIからゲノムをダウンロードしたり、 差分だけ更新する機能を持つ genome_updater

2020 4/25 help追記、タイトル変更 genome_updaterはNCBIゲノム(refseq / genbank)をダウンロードおよび更新するBashスクリプトである。データの更新、詳細ログの保持、ファイル整合性チェック(MD5)、そして並列[2]ダウンロードをサポートする。 インス…