細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…

2023-08-29

大規模な系統学的データセットを削減する Treemmer

2018 BMC Bioinformatics tree filtering Singularity

大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…

2023-06-28

突然変異蓄積実験（MA experiment）用にデザインされた変異コーラー accuMUlate

2018 Bioinformatics variant MA experiment

突然変異蓄積（MA）実験（wiki）は、突然変異の影響を直接研究するために最も広く用いられている方法である。MA株から全ゲノムを配列決定することにより、研究者は自然突然変異の発生率と分子スペクトルを直接研究することができ、これらの結果を用いて突然…

2023-02-11

統計モデルを使った倍数性推定を行う nQuire

BMC Bioinformatics 2018 polyploid

酵母や真菌などの病原性真核生物や非病原性真核生物など、様々な生物種で種内変異が起こっている。次世代シーケンサー（NGS）を用いた実験から、DNA量を測定することなく、間接的に倍数体を推定することができる。著者らは、NGSを用いて2倍体、3倍体、4倍体…

2023-01-01

イントロン位置の保存性とRNA-seqを活用したホモロジーに基づく遺伝子予測を行う GeMoMa

2019 Methods in Molecular Biology Evidence-driven gene prediction eukaryotic genome annotation 2018 BMC Bioinformatics Nucleic Acids Research 2016

明けましておめでとうございます。今年もよろしくお願いいたします。今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…

2022-09-19

Demultiplexingを行う fgbioのDemuxFastqsコマンド

demultiplexing fasta/fastqの操作 Genomics Inform 2018 barcode / index UMI

fgbioはディープシーケンシングデータを扱うためのコマンドラインツールキット。リードレベルのデータ（FASTQ、SAM、BAMなど）やバリアントレベルのデータ（VCF、BCFなど）を操作する。特に次のようなものを提供することに重点を置いている（Githubより）。 …

2022-07-23

UCSF ChimeraX内でColabFoldを使う

Protein Science 2021 2018 2007 GUIツールタンパク質解析ソフト AlphaFold tips folding structure viewer

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

2021-11-23

真核生物の比較ゲノミクスのためのゲノムブラウザ Genomicus

2021 Nucleic Acids Research web tool karyogram synteny_block invertebrate vertebrate plant fungi dot plot ゲノム比較 (comparative genomics) 2018 2015 2013 2010 Plant and Cell Physiology Bioinformatics

Genomicusは、真核生物の比較ゲノミクスに特化したデータベースおよびウェブサーバである。Genomicusの主な機能は、複数のゲノム間でのゲノムブロックの保存状態をグラフィカルに表現することであり、特定の遺伝子を中心とした局所的な保存状態や、核型比較…

2021-11-04

Circosプロットをインタラクティブに作成するためのR/Shinyアプリケーション shinyCircos

karyogram web tool circos 2018 Bioinformatics

2023/11/01 URL修正 Circosプロットの作成は、ゲノムデータを視覚化する最も効率的なアプローチの一つである。しかし、Circosプロットを作成するための既存のツールをインストールして使用することは、コーディングの経験がないユーザーにとっては難しい。こ…

2021-08-31

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

snakemake 2021 Preprint dot plot large genome 結果の視覚化 (visualization) 2018 Genome Biology repetitive sequences 2022 Bioinformatics centromere

2022/01/13 論文引用ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

2021-08-10

複雑なデータをヒートマップで可視化するためのRパッケージ Superheat

Journal of Computational and Graphical Statistics 2018 heatmap

2021 08/11 データのロード追記テクノロジーの進歩により、科学分野をはじめとする膨大な量のデータを収集することが可能になった。従来のデータ可視化ツールは、高次元環境ではうまく機能しないため、このような膨大なデータセットから有用な情報を抽出す…

2021-08-09

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン HomBlocks

2018 plant Genomics multiple sequence alignment (MSA) automated pipeline phylogenetic marker genes organelle genome circos

オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを…

2021-08-08

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

DNA解析ソフト GUIツール reciprocal best hit BLAST dot plot sequence comparison RACE genome walking fasta/fastqの操作ゲノム比較 (comparative genomics) synteny_block GO term KEGG 2020 Molecular Plant 2018 Preprint

ハイスループットシーケンス（HTS）データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。ユーザー…

2021-07-01

European Nucleotide Archiveへのゲノムアノテーションサブミットを容易にするコンバーター EMBLmyGFF3

BMC Research Notes 2018 EMBL format conversion GFF

過去20年にわたり、多くのシーケンスアノテーションツールが開発され、生命のツリーのすべてのkingdomの幅広い生物の比較的正確なアノテーションの作成を容易にしている。ゲノム内で注釈が付けられた機能を記述するために、Generic Feature Format（GFF）が…

2021-05-31

計算生物学のシンタックスハイライトパッケージ bioSyntax

2018 BMC Bioinformatics Syntax highlight tips

計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…

2021-05-12

エピゲノムプロファイルを用いた転写因子予測ツール BART

2018 web tool ChIP-Seq transcriptional regulator NAR Genomics and Bioinformatics 2021

ある遺伝子セットを制御する機能的な転写因子の同定は、遺伝子制御研究において重要な問題である。従来の転写因子の同定方法であるDNA配列モチーフ解析では、特定の因子の機能的な結合を予測することができず、遠位のエンハンサーに結合する因子を検出するに…

2021-05-02

原核生物のゲノム構造を利用してリボソーム領域全体をアセンブルする riboSeed

de fere novo assembly 2018 Nucleic Acids Research rRNA bacteria assembly

バクテリアのゲノムシーケンスの大部分は、イルミナのショートリードを用いて行われている。しかし、ショートリードだけでは繰り返し領域を解決することが難しいため、クローズドなゲノムを得ることができたのは、シーケンスプロジェクトの約10%に過ぎなかっ…

2021-04-26

メタゲノムデータセットのカバレッジを推定する Nonpareil 3

2018 mSystems abundance estimation in metagenomics data metagenome shannon diversity index microbial diversity

2021 4/27 誤字修正 2018年のNonpareil3の論文よりメタゲノムデータセットに基づく微生物群集の多様性の推定は、不十分な網羅性やリファレンスデータベースに依存する多様性の推定に起因するバイアスの影響を受け、その程度は未知数であることが多い。例え…

2021-04-21

曖昧さを考慮したドットプロットによる視覚的な配列解析を行う FlexiDot

2018 Bioinformatics dot plot ゲノム比較 (comparative genomics) 結果の視覚化 (visualization) repetitive sequences

FlexiDotはクロスプラットフォームのドットプロットスイートで、高品質の自己、ペアワイズ、all versus allのビジュアライゼーションを生成する。コンセンサス配列とエラーの多い配列を比較する際のドットプロットの適合性を向上させるために、FlexiDotは曖…

2021-04-14

ドラフトアセンブリからプラスミドを同定する MOB-suite

2018 Microbial Genomics plasmid replicon type assembly

コストパフォーマンスの高いIllumina社のショートリードシーケンシングにより、大規模な細菌集団遺伝学研究が日常的に行われるようになった。しかし、プラスミドのアセンブリが不完全であるため、プラスミドの含有量を分析することは依然として困難である。…

2021-04-07

バクテリアゲノムデータセットからリンクされた遺伝子を探す SLING

2018 Nucleic Acids Research pan-genome toxin-antitoxin operon

オペロンおよび機能的に連結された遺伝子アレイは原核生物ゲノムにおける転写構成の最も基本的な単位を表す。同じプロセスまたはパスウエイに関与する遺伝子は単一のブロックにコードされ、同じ調節の下で転写される。多くの臨床的に重要な遺伝子システムが…

2021-03-23

ピークコールを行う YAPC

2018 eLife (Journal)

Githubより YAPCはATAC-seq、DNase-seq、ChIP-seqなどのゲノムハイスループットシーケンシングデータ用のピークコーラーである。1つのタイムポイントにつき2つの生物学的複製を持つ時系列データセット（または複数の条件を持つその他のデータ）において、特…

2021-03-19

GET_PHYLOMARKERS

2018 Frontiers in Microbiology pan-genome

ゲノム配列が公開データベースに大量に蓄積されたことにより、生物学研究の多くの分野でゲノムレベルの系統解析が盛んに行われるようになった。しかし、様々な進化や遺伝的過程により、多くの遺伝子座が系統樹の再構築には好ましくない特性を持っている。こ…

2021-02-25

ディープラーニングを用いた微生物ゲノムのビニングツール Vamb

2018 Preprint 2021 Nature Biotechnology Binning (metagenomics) metagenome

2021 7/27 論文追記 2022/02/19 インストール手順修正メタゲノミクスワイドゲノム配列データからの微生物種の同定と再構築は、重要かつ挑戦的な課題である。現在の既存のアプローチは、複数のサンプルにわたる遺伝子またはコンティグの共分散情報と、配列中…

2021-02-15

: 高次元データのクラスタリングと可視化のためのインタラクティブな教育用ウェブリソース ClusterEnG

KnowEnG PeerJ 2018 education 結果の視覚化 (visualization) web tool

クラスタリングは、何らかの尺度に従って類似したデータポイントをグループ化することにより、大規模データセットの構造を発見するための最も強力で広く利用されている分析手法の一つである。R(R Core Team, 2015)やPython(Pedregosa et al., 2011)のような…

2021-01-07

ヒトとマウスのロングノンコーディングRNAのアノテーションをつける lncFunTK

2018 Bioinformatics lncRNA web tool

ロングノンコーディングRNA（lncRNA）とは、200塩基より長いノンコーディング転写物を指す。現在までに、約58,000のlncRNAが様々な細胞型・組織に集積されているが、そのうち79%が新規性の高いものであり、その生物学的機能は未だ解明されておらず(Iyer et a…

2020-12-25

ChIP-Atlas

animal human genome ChIP-Seq web tool database IGV EMBO reports 2018

代表的なモデル生物6種（ヒト、マウス、ラット、ミミズバエ、線虫、出芽酵母）から得られた公開されているクロマチン免疫沈降シークエンス（ChIP-seq）とDNase-seqデータ（n>70,000）を完全に統合し、ChIP-Atlas（http://chip-atlas.org）と名付けられたデー…

2020-12-03

kallistoのアセンブリツールabeona

2018 Frontiers in Plant Science assembly

（途中まで省略）アノテーション付きのリファレンスゲノムを持つ生物のハイブリッドシーケンシング研究により、Iso-Seqリードを含める転写産物アイソフォームの選択的スプライシングに対する感度が向上したという証拠が見つかった。（一文省略） Iso-Seqリ…

2020-11-29

ユーザー提供のゲノムfastaからwgMLSTおよびcgMLST解析を行う chewBBACA

2018 Microbial Genomics MLST 結果の視覚化 (visualization) ゲノム比較 (comparative genomics)

細菌ゲノム疫学やアウトブレイク検出において、遺伝子ごとのアプローチがますます普及してきている。しかし、これらの方法論のためのスキーマ定義や対立遺伝子呼び出しのためのオープンソースのスケーラブルなソフトウェアが不足している。chewBBACAスイート…

2020-11-07

LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex LAI

2018 Nucleic Acids Research repetitive sequences evaluation tool assembly plant

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正, タイトル修正（”主に植物”を削除）構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレ…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018