macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

download

Ensemblのゲノムをダウンロードする pyensembl

PyEnsemblは、エキソンや転写産物などのEnsemblリファレンスゲノムメタデータのPythonインターフェイスである。 PyEnsemblは、Ensembl FTPサーバーからGTFおよびFASTAファイルをダウンロードし、ローカルデータベースにロードする。 インストール Github #bi…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

2021 10/9 コマンドの修正(バージョンアップ) タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda ins…

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

eggNOG データベース

2022/06/25追記 eggNOG 5.0のペーパーより 分化イベント後に共通の祖先から分岐したオルソログを同定することは、分子生物学および進化生物学における基本的な課題である。 duplication eventの後に分岐した配列であるパラログと比較して、オルソログは長い…

パンゲノム解析を行うためのprokaryotesゲノム情報のデータベース proGenomes2

2019 10/27 twitter追記2 019 10/27 ブラウザについて追記 大規模ゲノミクスは、微生物の理解を深めるために役立っている。微生物学は、数千のシーケンスされたゲノムを利用できるデータ集約型の分野に発展した(ref.1–3)。過去20年以上にわたり、シークエ…

NCBI GEO のRNA-seqデータを分析する GREIN

RNA-seqデータセットをGene Expression Omnibus(GEO)およびSequence Read Archive(SRA)のリポジトリに保存すると、公開されている研究の再現性が保証され、再利用が容易になる。これらのデータの再分析は、新しい科学的洞察をもたらす可能性があり、新し…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

転写領域アノテーションのためSRAのデータをサンプリングしてマッピング率等を評価する VARUS

2019 6/3 何も表示されないバグを修正 非常に大量の次世代シークエンシング(NGS)データがNCBIのシークエンスリードアーカイブ(SRA)[ref.1]やENA[ref.2]などの公共のデータベースに保管されている。これを書いている時点で、2019年3月に、SRAは約2.7 * 10…

メタゲノムアセンブリを評価する MetaQUAST

2019 5/27 追記 2021 6/15, 6/22 コマンド修正 メタゲノミクスは、環境サンプルから直接採取した遺伝物質を研究する。 NGS技術は、クローニングなしに少量の生物からDNAを抽出しショートリードシーケンシングすることを可能にする。しかし、そのような実験で…

SRA Toolkitのfasta-dumpを高速化した fasterq-dump

2019 4/29 複数ファイルダウンロード例、8/13 ダウンロード例のコード修正、12/18 インストールエラー修正、12/21 実行例追記 2020 1/21 ダウンロード例のコード修正、4/1 リンク追加 2023/07/22 docker イメージ例追加 タイトルの通りのコマンド。 使い方だ…

SRA/ENA/GEOのメタデータとデータを取得したり、IDを変換するツールキット pysradb

2022/04/20 タイトル修正 いくつかのプロジェクトはDNA-seq [ref.1]とRNA-seq [ref.2、3]データセットの要約を分析して公表する努力をしている。 NCBIのSRA(Sequencing Read Archive)[ref.4]からメタデータと生データを入手することは、公開されている次世…

メタゲノムデータからrRNAをターゲットアセンブリし、系統アサイン、定量、比較する phyloFlash

2019 5/9 インストール追記 2020 6/11 インストール方法修正 2020 6/16 trusted contigのコマンド追記 2020 10/28 論文追記 2023/05/10 ツイート追記 ショットガンメタゲノミクスは、微生物群集の機能を調査し、それらの系統または分類学的な構成を決定する…

ゲノムをダウンロードして総当たりANI比較を実行する pyani

2020 2/12 タイトル修正 2020 2/20 コメント追加 2020 2/25 インストール手順修正 2020 10/5 コマンド微修正 2020 10/9 インストール微修正 このモジュールはいくつかの代替方法のうちの1つに従って平均ヌクレオチド同一性ANIを計算する。ANIは、DNA-DNAハ…

オルソログデータベース OrthoDB

ゲノムシーケンシングは、遺伝子の完全なレパートリーを明らかにし、分子レベルでの細胞プロセスの研究を可能にする可能性を有する、生物の分子調査のための最も包括的な方法である。相同性、共有された祖先の証拠としての遺伝子配列の類似性認識は、他の種…

nrなどのNCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 2020 9/7追記2020 9/11 わかりにくい説明を修正、9/11 簡単な並列処理例追記、9/12.9/15 taxonkit コマンド修正, わかりにくい部分を修正、10/3 taxonkitのコマンドを修正、10/10 コマンド微修正、10/28 誤字修正 2022 1/6 例のパラ…

NCBI FTPサーバからゲノム配列をダウンロードする ncbi-genome-download

2019 11/8 コマンドのミス修正("Escherichia coli" => "Escherichia") 2019 12/19 関連ツールリンク追加 タイトルの通りの機能をもつスクリプト。 インストール mac os10.13のminiconda2-4.0.5環境でテストした。 依存 本体 GIthub #anaconda環境ならconda…

SRA Toolkitのfastq-dumpを並列実行して高速化する parallel-fastq-dump

NCBIのfastq-dumpはリソース(ネットワーク、IO、CPU)が速くても、時には非常に遅くなることがある(Githubのprotipを参照)。 fastq-dumpにはsraファイルの特定の範囲を照会するオプション(-Nと-X)があるため、このツールparallel-fastq-dumpは作業を要…

複数メタゲノムアセンブリのアセンブリ精度を比較して、種レベルでユニークな配列セットを得る dRep

2019 5/7 インストール追記、6/16 パラメータ追記、6/16 upしたdocker イメージのエラー修正、6/18 link追加 2021 4/29 インストール追記、5/18 インストール追記 (condaによるpplacerの導入)、5/27 タイトル変更、5/29, 6/30 compareコマンド追記 2022/06/…

ラージゲノムにも対応したde novo assembly評価ツール QUAST-LG

2019 7/28 help追記、タイトル修正、コマンド例追記 2019 10/20 リンク追加 2020 1/11 インストール修正 現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを…

MetaBAT

2019 8/28 追記 2019 9/30 metabat2紹介リンク追加 ハイスループットのメタゲノムショットガンシークエンシングは、環境から採取された微生物群集を直接研究するための強力なツールであり、それによって培養から解放され、また培養から生じる可能性のあるバ…

メタゲノムのシミュレーター InSilicoSeq

2019 5/13 コメントおよびパラメータ追記 2020 1/4 conda インストール追記 ますます多くのバイオインフォマティクスツールがリリースされており、特定の実験に最適なツールや最適なツールを知ることは困難になっている。ゲノミクスとメタゲノミクスのデータ…

メタゲノムから抗生物質耐性情報を検出する NastyBugs

病原性細菌の薬剤耐性(Antimicrobial resistance: AMR)は、世界中の公衆衛生上の脅威となっている。最も重要なのは、近年数が増えている多剤耐性(MDR)菌である(論文より ref.1)。これらの病原体の周知の例には、メチシリン耐性黄色ブドウ球菌(MRSA)…

fastq-dumpを並列化した pfastq-dump

2018 11/25 誤字修正 2019 12/18 インストール手順修正、コマンド実行手順追加 pfastq-dumpは、Ohtaさんが公開されているfastq-dumpを並列処理するpythonスクリプトparallel-fastq-dumpのbash実装バージョン。Sequence Read Archive(wiki)からダウンロード…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

VCFのユーティリティツール VCF-kit

2019 7/29 condaインストール追記 2021 6/23 phyloコマンド追記 2023/09/02 追記 集団および量的遺伝学は、集団内の個体がどのように異なるかを調べる。これらの違いを特定することにより、様々な分析を行うことができる。例えば、遺伝子変異は、表現型の基…

シンプルなSRA検索webサイト SRA Explorer

DDBJ、EMBL-EBI、NCBIのSRAの 検索エンジンは情報が多く、簡単にシーケンスデータを取ってくるにはやや使いにくい。ExplorerはSRAの検索ツール。Phil Ewels さんが作成されたwebツールで、SRAのAPIを使い、高速にSRAのデータを検索する。シンプルなインター…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…

NCBIからvirusゲノムをダウンロードする

Accession IDを使い、virusのゲノム配列(FASTA)をダウンロードする。 NCBIのvirus Genomesに移動する。 左下の方の"Accession list of all viral genomes"をクリックしてvirusのリストをダウンロードする。 このようなリストが入手できる。 user$ head taxid…

マルチプルシーケンスアラインメントを行うMAFFT

2019 6/13 説明及びインストール追記 2019 6/21 コマンド微修正 2019 7/3 説明修正 2019 7/15 help追記 2019 9/29 twitter追加 2019 11/4 関連追加 2019 11/13 誤字修正 2020 4/15 タイトル修正 2020 5/30 link追加 MAFFT開発秘話。私が4回生で宮田研に加わ…