計算生物学のシンタックスハイライトパッケージ bioSyntax

計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…

2021-05-30

メタゲノムアセンブリのコンタミネーションを調べる magpurify

OTU 2019 Nature metagenome phylogenetic marker genes MIMAGs/MISAGs

ヒトの腸内細菌叢の多くの種のゲノム配列は、実験室条件下での微生物の培養が困難であることが主な理由で、依然として不明である。本研究では、地理的にも表現型的にも多様なヒトの3,810の糞便メタゲノムから60,664の原核生物のドラフトゲノムを再構築するこ…

2021-05-29

aDNAのダメージパターンを高速計算する DamageProfiler

Ancient DNA 2021 Bioinformatics GUIツール

古代のDNA研究では、特定の特徴に基づいて古代のサンプルを認証することが、データ解析の重要なステップとなっている。このような重要性から、深いプログラミング知識を持たない研究者でも、基本的な損傷認証分析を実行できる必要がある。このようなソフトウ…

2021-05-28

シングルセルも含めてメタゲノムアセンブリの主要代謝系と炭素・窒素・硫黄関連の機能的アノテーションを行う METABOLIC

docker 2020 Preprint metagenome single cell annotation CAZymes KEGG TIGRFAM 2022 Microbiome (Journal) metatranscriptome

2024/03/23 論文引用、出力について説明マイクロバイオーム科学の進歩は、メタゲノミクスやシングルセルゲノミクスを用いて混合微生物群集から再構築されたゲノムから、微生物の生態を研究・推論できるようになったことが大きな要因となっている。このよう…

2021-05-27

CCSリードからの超高速に構造変異を検出する SKSV

2021 Bioinformatics Pacbio structural variations (SV)

Circular consensus sequencing (CCS) リードは、構造変異（SV）を包括的に検出することができると期待されている。しかし、アラインメントベースのSVコールパイプラインは、完全なリードアラインメントの生成とその後処理のために計算量が多くなる。ここで…

2021-05-26

fastqをソートして扱いやすくする BBMapパッケージのClumpify

fasta/fastqの操作

HPより https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/clumpify-guide/ Clumpifyは、オーバーラップしているリードを迅速にグループ化して塊にするためのツールです。これにより、ファイルの圧縮率を高めたり、オーバーラップベースのア…

2021-05-25

ALFsim

2012 Molecular Biology and Evolution

計算進化生物学では、研究対象となる生物の進化の歴史がわからないことが多いため、検証やベンチマークは難しい課題である。インシリコで配列進化をシミュレーションするコンピュータプログラムは、新しく開発された手法の検証や異なるアルゴリズムの比較を…

2021-05-24

Referee

2019 Genome Biology

次世代シーケンサ技術を用いたゲノムアセンブリは、今や生物学研究に欠かせないものとなっているが、シーケンサやアセンブリのプロセスの多くは依然としてエラーが発生しやすい状態にある。残念ながら、これらのエラーは下流の解析に伝播し、結果や結論に大…

2021-05-22

インタラクティブなマイクロバイオーム分析と可視化のためのR shinyアプリケーション animalcules

2021 Microbiome (Journal) shiny abundance estimation in metagenomics data metatranscriptome metagenome amplicon sequence 相関分析結果の視覚化 (visualization) 回帰分析クラスター分析 BIOM ASV (amplicon sequence variant) UMAP t-SNE biomarker OTU

ヒトの健康や病気の形成に腸内細菌叢が果たす複雑な役割は、培養に依存しない分子ベースのハイスループットシーケンシング技術が利用できるようになったこともあって、近年、精力的に調査・研究が行われている。ヒトのすべての宿主は、平均500～1000種の異な…

2021-05-21

ANGSD

2014 BMC Bioinformatics population genomics bam/sam genotype likelihood

ハイスループットのDNAシーケンス技術は、膨大な量のデータを生成する。何千ものサンプルを同時に解析するためには、高速で柔軟性があり、メモリ効率の良い実装が必要である。ここではANGSDと呼ばれるマルチスレッド・プログラム・スイートを発表する。この…

2021-05-20

ゲノムスケールのデータを集めた公開リポジトリ Genome Warehouse

2021 Preprint database SRA

Genome Warehouse (GWH) は、幅広い種のゲノムアセンブリデータを収蔵する公開リポジトリであり、ゲノムデータの提出、保存、公開、共有のための一連のウェブサービスを提供している。China National Center for Bioinformation (CNCB, https://bigd.big.ac.…

2021-05-19

キュレーションされ、統一したアノテーションが付けられたhuman gutメタゲノムのデータベースGMrepo

2020 Nucleic Acids Research metagenome ヒト腸内 (human gut) metadata database

GMrepo (data repository for Gut Microbiota)は、キュレートされ、一貫してアノテーションされたヒト腸管メタゲノムのデータベースである。GMrepoの主な目的は、急速に増加しているヒトのメタゲノムデータの再利用とアクセスを容易にすることである。これは…

2021-05-18

ターゲットの転写制御因子を予測したりピークのアノテーションを行うウェブツール AnnoMiner

2021 Preprint ChIP-Seq transcriptional regulator web tool

遺伝子発現の制御には、転写因子による正確な転写プログラムと、エピジェネティックな事象の組み合わせが必要である。近年、エピゲノムやトランスクリプトームの技術が進歩し、さまざまな遺伝子制御メカニズムが解明されてきた。しかし、転写因子とエピジェ…

2021-05-17

脊椎動物のオルソログデータベース OHNOLOGS v2

2020 Nucleic Acids Research orthologue database animal fish

ヒトを含むすべての脊椎動物は、2回の全ゲノム重複（2R-WGD）を経た祖先から進化してきた。また、テレオスの魚類では、さらに3回目のゲノム複製（3R-WGD）が行われている。これらのゲノム重複から保持された遺伝子、いわゆるオルソログは、脊椎動物の複雑性…

2021-05-16

特定された生合成遺伝子群から代謝経路を再構築する BiGMeC

2021 BMC Bioinformatics metabolic reconstruction metabolism Pathway gene cluster

生合成遺伝子群（BGCs）にコードされた酵素や酵素複合体によって、さまざまな生理活性物質が生産されている。これらのBGCは、そのDNA配列に基づいて同定され、機能的な注釈が付けられる。さらなる研究開発のための候補は、その機能的なアノテーション、既知…

2021-05-15

GREAT

gene set enrichment analysis 2010 Nature Biotechnology ChIP-Seq transcription factor binding site

ゲノム全体のDNA結合イベントを局所的に測定することで同定されたシス制御領域の機能的意義を解析するために、Genomic Regions Enrichment of Annotations Tool (GREAT)を開発した。従来の手法では、遺伝子の近位にある結合のみを考慮していたが、GREATは遠…

2021-05-14

MIRAアセンブラ

Genome Research 2004 assembly

MIRAは、全ゲノムおよびEST/RNASeqプロジェクト用のマルチパスDNA配列データアセンブラ/マッパーである。MIRAは以下の方法で得られたリードをアセンブル/マッピングする。 electrophoresis sequencing（別名サンガーシーケンシングイルミナ（Solexa）シーケ…

2021-05-13

SnpEffとSnpSift

2012 Fly VCF annotation SNV small indel 結果の視覚化 (visualization)

2022/1/4 例追記, 2023/07/08 ツイート追記 2023/09/02 説明追加以前紹介しましたが、分かりにくかったので、基本的な機能に限定して簡単にまとめ直します。 SnpEffはバリアントのアノテーションと機能的効果の予測ツールボックスです。遺伝的バリアントが…

2021-05-12

エピゲノムプロファイルを用いた転写因子予測ツール BART

2018 web tool ChIP-Seq transcriptional regulator NAR Genomics and Bioinformatics 2021

ある遺伝子セットを制御する機能的な転写因子の同定は、遺伝子制御研究において重要な問題である。従来の転写因子の同定方法であるDNA配列モチーフ解析では、特定の因子の機能的な結合を予測することができず、遠位のエンハンサーに結合する因子を検出するに…

2021-05-11

sv-callers

2020 PeerJ structural variations (SV)

構造変異（Structural variants: SV）は、ガンをはじめとするさまざまな遺伝病に関与する重要な遺伝的変異の一種である。しかし、全ゲノムシークエンスの進歩にもかかわらず、ショートリードデータに含まれるSVを包括的かつ正確に検出することは、実用上およ…

2021-05-10

VCFファイルをテーブル形式に単純化する VcfSimplify

VCF docker format conversion

BiostarsとGithubより VCFファイルを管理・変更するツールはいくつかあるが、バイオインフォマティクスのサポートを受けていない生物学者が必要とする最も単純な出力を生成することができるシンプルで包括的なツールはまだない。このツールは、ソートされたV…

2021-05-09

AAIを計算する EzAAI

AAI 2021 Journal of Microbiology

2021 5/10 追記 2022/10/20 help追加平均アミノ酸同一性（AAI）は、ゲノム上の一対の関連性を示す指標であり、原核生物の分類学やその関連分野への応用が複数の研究で提案されている。AAIは、種の分類において標準的な基準である平均ヌクレオチド同一性（AN…

2021-05-08

（bin化した）メタゲノムアセンブリから病原性遺伝子や薬剤耐性遺伝子を予測するパイプライン PathoFact

2021 Microbiome (Journal) Virulence Factor metagenome AMR snakemake workflow manager automated pipeline docker

2023/07/13 追記 2024/05/20 dockerイメージ追記病原性微生物は、宿主に侵入し、コロニー化し、損傷を与えることで病気を引き起こす。細菌毒素を含む病原性因子は病原性に寄与する。さらに、抗菌薬耐性遺伝子は、病原体が治癒力のある治療法を回避すること…

2021-05-07

Minicondaの代わりにMiniforgeインストーラーを使ってcondaの環境を作る

tips 初心者向け conda

2021 5/8 タイトル修正 Conda-forgeのMiniforgeレポジトリには、conda-forge に特化した Conda の最小インストーラーが用意されています。Miniforgeレポジトリは Miniconda と同等ですが、Conda-forge がデフォルトのチャンネルとして設定されています。また…

2021-05-05

Nextflowで使うdockerイメージのサイズを減らす

docker nextflow

2021 5/6 誤字修正昨日の記事で、dockerイメージを指定してNextflowをランする例を紹介しました（リンク）。nextflow.configのprofile{ } でdocker{ }を指定しておく方法です。 nextflowのラン。-profile dockerを指定する。 nextflow variant_call_freebay…

2021-05-04

Nextflowを使ってバイオインフォマティクスのツールを動かすその２

docker nextflow

2021 5/5 コードの改行 (\) を除去 2021 5/6 説明を修正 Nextflowは2018年のアップデートでcondaに対応し（リンク）、nextflow側からcondaを呼び出してランできるようになりました。そこで”Nextflowを使ってバイオインフォマティクスのツールを動かす”第2回…