macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

download

NCBI Genome のBrowse by Organism機能

ハイスループットシークエンシング技術の普及により、NCBIなどの塩基配列データベースに登録されるゲノム数は爆発的に増大している。BLAST検索をやり直したら少し前は無かったゲノム情報が出てきた、という話も度々耳にする。特にバクテリアやアーキアはゲノ…

バクテリアゲノムの比較ゲノム解析を行うwebサービス EDGAR

Bergey's Manual of Systematics of Archaea and Bacteriaより 次世代シークエンシングアプローチの展開により、完全にシークエンシングされたゲノムの数は急速に増加している。その結果、単一ゲノムだけでなく、関連する大規模なゲノム群を比較的に解析する…

NCBI taxdumpをlineageファイルに変換するスクリプト NCBItax2lin

2020 9/9,9/10 コード修正 タイトルの通り。 インストール condaでpython3.7の仮想環境を作ってテストした(macos10.14)。 依存 ncbitax2lin requires python-3.7 Github conda create -n ncbitax2lin -y python=3.7conda activate ncbitax2linpip install …

真核生物の予測されたタンパク質のデータベース EukProt

2020 7/23 説明追加 EukProtは、公開されている予測タンパク質セットと、真核生物の多様性を表すために選択された非注釈ゲノムのデータベースで、すべての主要なスーパーグループからの742種とorphan taxaを含む。系統図、遺伝子ファミリー進化、その他の遺…

トキシン・アンチトキシンデータベース TADB 2.0

トキシン・アンチトキシン(TA)系は、最初はプラスミド中毒(addiction)モジュールとして同定されたが、ほとんどの自由に生きている細菌の染色体上に非常に豊富に存在する。TA系は、栄養飢餓(ref.1,2)、プログラムされた細胞死(ref.3)、バクテリオファージ…

SRAなどのシーケンシングデータを一括ダウンロードする grabseqs

2020 4/1 タイトル修正、誤字修正 ハイスループットシーケンシングは、生物学的な疑問を解決するための強力な技術である。Grabseqsは、Sequence Read Archive(SRA)、Metagenomics Rapid Annotation through Subsystems Technology(MG-RAST)サーバー、iMi…

NCBIからゲノムをダウンロードしたり、 差分だけ更新する機能を持つ genome_updater

2020 4/25 help追記、タイトル変更 genome_updaterはNCBIゲノム(refseq / genbank)をダウンロードおよび更新するBashスクリプトである。データの更新、詳細ログの保持、ファイル整合性チェック(MD5)、そして並列[2]ダウンロードをサポートする。 インス…

Cytobandファイルのダウンロード

Cytoband file format https://software.broadinstitute.org/software/igv/Cytoband Cytobandファイル(ギムザ染色された染色体のバンドのおおよその位置を表す)はUCSCから入手できる。 group => Mapping and Sequencing track => Chromosome bandを選択。 …

edirectとSRA toolsを組み合わせてBioprojectのfastqを全てダウンロードする

タイトルの通り、Bioprojectの全fastqをダウンロードする。 インストール ubuntu18.04LTSでテストした。 Entrez Directのインストール apt update && apt install -y ncbi-entrez-direct#condaconda install entrez-direct fasterq-dumpは以前紹介しています…

Ensemblのゲノムをダウンロードする pyensembl

PyEnsemblは、エキソンや転写産物などのEnsemblリファレンスゲノムメタデータのPythonインターフェイスである。 PyEnsemblは、Ensembl FTPサーバーからGTFおよびFASTAファイルをダウンロードし、ローカルデータベースにロードする。 インストール Github #bi…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda install -c bioconda -y ucsc-genepredtogtfconda i…

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

eggNOG データベース

eggNOG 5.0のペーパーより 分化イベント後に共通の祖先から分岐したオルソログを同定することは、分子生物学および進化生物学における基本的な課題である。 duplication eventの後に分岐した配列であるパラログと比較して、オルソログは長い進化的タイムスケ…

パンゲノム解析を行うためのprokaryotesゲノム情報のデータベース proGenomes2

2019 10/27 twitter追記2 019 10/27 ブラウザについて追記 大規模ゲノミクスは、微生物の理解を深めるために役立っている。微生物学は、数千のシーケンスされたゲノムを利用できるデータ集約型の分野に発展した(ref.1–3)。過去20年以上にわたり、シークエ…

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラ…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…

メタゲノムアセンブリを評価する MetaQUAST

2019 5/27 追記 メタゲノミクスは、環境サンプルから直接採取した遺伝物質を研究する。 NGS技術は、クローニングなしに少量の生物からDNAを抽出しショートリードシーケンシングすることを可能にする。しかし、そのような実験で作成されたデータは膨大でノイ…

SRA Toolkitのfasta-dumpを高速化した fasterq-dump

2019 4/29 複数ファイルダウンロード例 2019 8/13 ダウンロード例のコード修正 2019 12/18 インストールエラー修正 2019 12/21 実行例追記 2020 1/21 ダウンロード例のコード修正 2020 4/1 リンク追加 タイトルの通りのコマンド。 使い方だけ簡単に紹介しま…

SRAのメタデータを取得したり、IDを変換するツールキット pysradb

いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世代のシークエンシングデー…

メタゲノムデータからrRNAをターゲットアセンブリし、系統アサイン、定量、比較する phyloFlash

2019 5/9 インストール追記 2020 6/11 インストール方法修正 2020 6/16 trusted contigのコマンド追記 ショットガンメタゲノミクスは、微生物群集の機能を調査し、それらの系統または分類学的な構成を決定するための強力なツールである(Preprintより ref.1…

ゲノムをダウンロードして総当たりANI比較を実行する pyani

2020 2/12 タイトル修正 2020 2/20 コメント追加 2020 2/25 インストール手順修正 このモジュールはいくつかの代替方法のうちの1つに従って平均ヌクレオチド同一性ANIを計算する。ANIは、DNA-DNAハイブリダイゼーション(DDH )の適切なin silico代替物であ…

オルソログデータベース OrthoDB

ゲノムシーケンシングは、遺伝子の完全なレパートリーを明らかにし、分子レベルでの細胞プロセスの研究を可能にする可能性を有する、生物の分子調査のための最も包括的な方法である。相同性、共有された祖先の証拠としての遺伝子配列の類似性認識は、他の種…

nrなどのNCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 2020 9/6 2020 9/7追記2020 9/11 わかりにくい説明を修正 2020 9/11 簡単な並列処理例追記 2020 9/12.9/15 taxonkit コマンド修正, わかりにくい部分を修正 ncbi-blast-dbsはデータベースファイルを並行してダウンロードすることで…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 ncbi-genome-downloadに関するツイート インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

たくさんのスモールゲノムを比較したり、複数メタゲノムアセンブリのde-replicationを行う dRep

2019 5/7 インストール追記 20196/16 パラメータ追記 20196/16 upしたdocker イメージのエラー修正 2019 6/18 link追加 メタゲノム研究により、シーケンシングされ、ドラフト品質ゲノムが解読される微生物ゲノムの数は毎年急速に拡大している。大きなゲノム…

ラージゲノムにも対応したde novo assembly評価ツール QUAST-LG

2019 7/28 help追記、タイトル修正、コマンド例追記 2019 10/20 リンク追加 2020 1/11 インストール修正 現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを…

MetaBAT

2019 8/28 追記 2019 9/30 metabat2紹介リンク追加 ハイスループットのメタゲノムショットガンシークエンシングは、環境から採取された微生物群集を直接研究するための強力なツールであり、それによって培養から解放され、また培養から生じる可能性のあるバ…