連続した配列ブロックのクラスターを検出する FMSClusterFinder

本論文では、DNAやRNAの配列内部の連続した配列ブロックのクラスターを同定・検出するための新しいツールおよびアルゴリズムであるFMSClusterFinderについて説明する。遺伝子発現やゲノムグループの性能は、機能的要素がクラスターとして互いに協調して制御…

2022-04-27

タンパク質セットの2次元の特徴を表現するカスタマイズ可能なwebツール ProFeatMap

2022 Preprint web tool protein domain 結果の視覚化 (visualization) proteome

ProFeatMapは、ドメイン、繰り返し配列、翻訳後修飾の位置などのタンパク質の特徴を、カスタマイズ可能なグラフィカルな2Dマップに素早く表示する、Pythonベースの直感的なウェブサイトである。ProFeatMap は、ユーザー定義のタンパク質リストから出発して、…

2022-04-23

メタゲノミクスデータ中のバクテリオファージの解析、アノテーション、分類のための自動化パイプラインMetaPhage

2022 Preprint phage docker automated pipeline nextflow OTU Singularity metagenome mSystems

2022/09/08 論文引用ここ数十年、微生物叢、特にヒトの腸内細菌叢の研究と特性評価に大きな関心が寄せられ、常在微生物が人体の正常な解剖学的発達と生理的機能に極めて重要な役割を果たすことが明らかにされている。異なる環境を特徴づける複雑な細菌の動…

2022-04-21

生のシークエンシングリードからスケーラブルな高精度の系統樹を生成する Read2Tree

SARS-CoV-2 2022 Preprint phylogenetic marker genes 分子系統樹 automated pipeline 高速なツール 2023 Nature Biotechnology

2023/06/27 論文引用シーケンスのリードデータから系統樹を推定することは、生物学の基礎となるものである。しかし、最新の系統樹解析では、複雑なパイプラインを実行する必要があり、多大な計算コストと人件費がかかる上、シーケンスのカバレッジ、アセン…

2022-04-18

シークエンスリードアーカイブからメタデータ情報をJSON形式で取得する ffq

SRA download metadata GEO 2022 Preprint

2022/05/20 論文引用タイトルの通りのツール。簡単に紹介します。 `ffq` (Fetch FastQ) is a new command line tool that makes it easier to find #sequencing data from the SRA / GEO / ENA. Importantly `ffq` does not download files, just file meta…

2022-04-14

機械学習と意味的類似性によってGene Ontologyのアノテーションを行う CrowdGO

snakemake 2021 Preprint deep neural network GO term テスト失敗

ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多…

2022-04-13

アミノ酸配列からググってタンパク質の機能を調べる ProteInfer

GO term protein search 2021 Preprint deep neural network

アミノ酸配列からタンパク質の機能を予測することは、バイオインフォマティクスの長年の課題である。従来の手法では、配列アライメントを用いて、クエリ配列を何千ものタンパク質ファミリーのモデルや個々のタンパク質配列の大規模データベースと比較する。…

2022-04-13

GTDB-Tkのversion 2

bacteria archaea 2022 Preprint Bioinformatics GTDB

2022/05/12 追記 2022/06/03 古いツイートを消去 2022/07/23 preprint引用 2023/10/21 v2.3.2追記 GTDBとその分類ツールであるGTDB-tkは原核生物ゲノムの分類によく使われるようになりました。しかし、GTDB-tkのclassiyコマンドはメモリ要求量が高く、2021年…

2022-04-13

アセンブルされたゲノムをコンパクトに表現する AGC

2022 Preprint human genome Compression / decompression pan-genome

高品質の配列アセンブリは、個体の完全な遺伝情報を表現する究極の手段である。現在進行中のいくつかのパンゲノムプロジェクトでは、様々な種の高品質なアセンブリのコレクションが作成されている。ここでは、配列決定されたゲノムを2-3桁小さい空間で表現し…

2022-04-06

生合成遺伝子クラスターを高精度にde novo同定する GECCO

2021 Preprint deep neural network gene cluster

生合成遺伝子クラスター（BGC）は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、（メタ）ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド（CRF）を用いて、メタ…

2022-04-03

配列解析におけるリード塩基の偏りを解消するNGSリードシミュレータ Boquila

2022 Preprint simulator

ゲノム中の塩基配列は不均質である。そのため、特定の塩基配列に偏ったゲノムワイドNGSリードは、ゲノムワイドの不均一な塩基配列分布の影響を受けてしまう。Boquilaは、真のリードのヌクレオチドプロファイルを模倣した配列を生成し、ゲノム全体に分布するN…

2022-03-31

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022 Preprint k-mer ヒト腸内 (human gut) MInHash abundance estimation in metagenomics data Bioinformatics

2022/10/17 help更新 2023/01/05 論文引用、07/26 追記微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…

2022-03-30

アセンブリグラフを用いたゲノム配列の変換、評価、操作を行う gfastats

assembly assembly graph GFA 2022 Preprint

リファレンスゲノムの作成が急速に進んでいる現在、ゲノムアセンブリの要約統計量を確実かつ効率的に生成するツールの利用が不可欠となっている。また、新しいアルゴリズムやデータ型の出現に伴い、自動的および手動的なキュレーションによって既存のアセン…

2022-03-29

コアゲノム推定にメタゲノムアセンブルゲノムを活用するためのロバストなベイズアプローチ mOTUpan

2021 Preprint metagenome mOTU evaluation tool 2022 NAR Genomics and Bioinformatics

2022/08/20 論文引用近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム（MAG）やシングルセルアセンブルゲノム（SAG）を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このよう…

2022-03-28

複数のゲノムまたはビンからの非冗長化パンゲノムアセンブリを得る SuperPang

pan-genome 2022 Preprint dereplication metagenome mOTU k-mer

2022/303/29 リンク修正、コマンド修正ゲノムレベルでは、微生物は対立遺伝子と遺伝子組成の両方において高い適応性を持っている。このような遺伝的形質は、異なる環境ニッチに対応して出現し、微生物群集の動態に大きな影響を与える可能性がある。この結果…

2022-03-24

真核生物のシンテニックパンゲノムアノテーションを行う GENESPACE

Preprint 2022 structural variations (SV) pan-genome plant synteny_block polyploid large genome

多くの分類群において高品質な複数のリファレンスゲノム配列が利用可能になったことで、分子進化のパターンやプロセスを高解像度で見ることができるようになった。しかし、真核生物のほぼすべての系において、複数のリファレンスハプロタイプの情報を活用す…

2022-03-21

ABRIDGE

2022 Preprint Compression / decompression bam/sam テスト失敗

技術の進歩により、シークエンシングマシンは膨大な量の遺伝子データを生成するようになり、ストレージの需要が増加している。多くのゲノム解析ソフトウエアは、リードアライメントをトランスクリプトームアセンブリや遺伝子数推定などの目的で利用している…

2022-03-07

オーファン遺伝子の発見のための検索エンジン ORFanID

2022 Preprint web tool BLAST orthologue orphan gene

現在、多くのゲノムが解読され、ある分類群の遺伝子のかなりの割合が他の分類群にオルソログ配列を持っていないことが示されている。これらの配列は、通常、1つの種にのみ存在する場合はorphans/ORFansと呼ばれ、より高い分類学上のランクで見つかった場合は…

2022-03-03

PacBio CLR ゲノムアセンブリの研磨のためのNextflowワークフロー polishCLR

Pacbio Nanopore long read 2022 Preprint large genome polish haplotype reconstruction 2023 Genome Biology and Evolution

2023/08/23 論文引用ロングリードシーケンスにより、染色体レベルの高密度のコンティグが得られるようになり、ゲノムアセンブリは大きく変化した。しかし、Pacific Biosciences (PacBio) Continuous Long Reads (CLR) などの第3世代のロングリード技術によ…

2022-02-19

複雑なメタゲノムデータセットから高品質なゲノムを回収するビニングアルゴリズム binny

2021 Preprint snakemake Binning (metagenomics) 2022 Briefings in Bioinformatics

2022/10/15 論文引用ゲノムの再構築は、ゲノム-resolved メタゲノム解析や微生物群集からのマルチオミクスデータ統合において重要なステップである。本発表では、連続したゲノムと高度に断片化したゲノムの両方から高品質のメタゲノムアセンブリゲノムを生…

2022-02-04

（ヒト）パスウェイエンリッチメント解析のためのウェブアプリケーション DecoPath

2021 Preprint Pathway gene set enrichment analysis GSEA docker ORA human genome web tool KEGG pathway

過去20年間で、パスウェイデータベースとパスウェイエンリッチメント法は着実に発展してきた。しかし、パスウェイデータの出現に伴い、データベース間の相互運用性が改善されていないため、複数のデータベースから得られたパスウェイ知識をパスウェイ・エン…

2022-02-03

ハプロタイプを考慮してロングリードのエラー修正を行う VeChat

2022 Preprint error correction Nanopore long read Pacbio haplotype

2022/04/17 インストール手順修正エラー訂正は、ロングリードのシーケンスデータ解析における標準的な最初のステップである。現在の標準的な方法は、テンプレートとしてコンセンサス配列を使用する。しかし、メタゲノムや倍数性の高い生物のような混合サン…

2022-02-01

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

docker Singularity SARS-CoV-2 Preprint 2022 contamination human genome clinical and diagnostic

臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを…

2022-01-13

超高速で高精度なアンプリコンシークエンス解析ツール LotuS2

2021 Preprint amplicon sequence 高速なツールテスト失敗

2023/04/21 追記アンプリコンシークエンスは、マイクロバイオームのプロファイリングにおいて確立されたコスト効率の高い手法である。しかし、このデータを処理するための多くのツールは、大きなデータセットを処理するためにバイオインフォマティクスのス…

2021-12-21

COBS index

2019 Preprint index API

Githubより COBS（COmpact Bit-sliced Signature index）は、invertedインデックスとブルームフィルタを掛け合わせたものである。DNAサンプルのk-merやテキスト文書のq-gramsをインデックス化し、ユーザが選択したカバレッジ閾値を持つコーパスに対して近似…