DNA配列中のk-merを２次元空間に視覚化する KMAP

DNA配列中のパターンを同定し図示することは、様々な生物学的データ解析において極めて重要な作業である。この作業では、DNA配列の基本的な構成要素であるkmmerの集合によってパターンが表現されることが多い。これらのパターンを視覚的に明らかにするために…

2024-04-24

メタゲノムアセンブリの高精度なbin refinementツール Binette

2024 Preprint Binning (metagenomics) metagenome

2024/04/24 誤字修正メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム（MAG）の回収である。メタゲノム解析では、シーケンスリードをコンテ…

2024-04-22

複雑な反復配列を迅速にインタラクティブなドットプロットで可視化する ModDotPlot

2024 Preprint dot plot web tool 結果の視覚化 (visualization) 高速なツール centromere tandem repeats

ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…

2024-04-21

（ヒトとマウス）仮説生成のためにクエリに最も類似した遺伝子発現シグネチャーを検索する RummaGEO

2024 Preprint GEO human whole genome mouse RNA seq web tool GPT

Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現…

2024-04-17

WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS

Preprint Chloroplast DNA (plastome) phylogenetic marker genes phylogenetic tree Inference mitochondria automated pipeline multiple sequence alignment (MSA) 系統解析分子系統樹 2023

ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…

2024-04-13

（ヒト）AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

Protein-protein interactions (PPIs) human genome 2024 Preprint AlphaFold

タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…

2024-04-06

BinDash 2.0

高速なツール 2024 ANI Preprint

公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…

2024-04-03

複雑なメタゲノムおよびメタトランススクリプトームデータをアセンブルする PenguiN

2024 Preprint metagenome virus metatranscriptome

メタゲノミクスは、環境およびヒトに関連する微生物群集を研究するための強力なアプローチであり、特に、それらの形成におけるウイルスの役割を研究するためのアプローチでもある。ウイルスゲノムは、高い突然変異率によるゲノムの多様性のため、メタゲノム…

2024-03-29

イルミナFASTQの直感的で効率的な前処理ツール 123FASTQ

2024 Preprint trimming / preprocessing GUIツール

次世代シーケンサー（NGS）は遺伝子研究に革命をもたらしたが、生のシーケンサーリードの前処理は依然として重要なステップである。品質管理（QC）とトリミングのための既存のツールには限界があり、ワークフローが分断されている。本稿では、使いやすいイン…

2024-03-24

パンゲノムに基づいて構造変異をコールする svarp

2024 Preprint structural variations (SV) human genome GFA

現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異（SV）の検出が制限される。した…

2024-03-14

メタゲノムシークエンシングデータから微生物真核生物ゲノムを取り出すパイプライン Eukfinder

2023 Preprint Nanopore long read Pacbio テスト失敗

微生物群集のホールゲノムショットガン（WGS）メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…

2024-03-08

複数のラージゲノム間のシンテニーを高速に検出する ntsynt

2024 Preprint snakemake synteny_block large genome Bloom filter

近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複数種の比較ゲノム…

2024-02-24

既知のプロテオーム空間から類似したタンパク質構造を発見する AlphaFind

2024 Preprint AlphaFold web tool PDB protein search UniProt

2024/02/026 誤字修正 AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3…

2024-02-21

ロングリードを使って既存の（メタ）ゲノムアセンブリの改良（ハプロイドやphased assembly作成など）を行う HairSplitter

2024 Preprint assembly graph phasing haplotype reconstruction metagenome Viruses phage strain-level profiling

#2024/02/22 インストール手順修正ロングリード・アセンブラは、密接に関連したウイルス株や細菌株を識別する際に問題に直面する。この限界は、多様な菌株が重要な機能的違いを保持している可能性のあるメタゲノム解析の妨げとなっている。本著者らは、菌株…

2024-02-19

微生物の機能をGO termの形で予測する DeepGOMeta

2024 Preprint docker GO term nextflow bacterial annotation bacteria

微生物サンプルの解析は、その多様性と複雑性のために、依然として計算上困難である。ロバストなde novoタンパク質機能予測法の欠如は、これらのサンプルから機能的洞察を導き出すことの難しさを悪化させている。相同性や配列の類似性に依存する従来の予測手…

2024-02-11

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

Preprint 2022 diploid docker Singularity 2024 Nature Communications

2024/04/19 論文引用高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…

2024-02-08

細菌・古細菌の高速な比較ゲノムブラウザ Fast.genomics

2023 Preprint gene cluster bacteria archaea web tool 高速なツール系統解析結果の視覚化 (visualization) ゲノム比較 (comparative genomics)

ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…

2024-02-07

in silicoタンパク質間相互作用予測のためのユーザーフレンドリーなパイプライン LazyAF

2024 Preprint protein-protein interaction (PPI) google colab AlphaFold

2024/02/07 タイトル変更人工知能はタンパク質構造予測の分野に革命をもたらした。しかし、より強力で複雑なソフトウェアが開発されるにつれ、エンドユーザーにとって制限要因になりつつあるのは、能力よりもむしろアクセシビリティと使いやすさである。こ…

2024-02-03

大規模微生物データセットのためのスケーラブルなコアゲノムアライメント Parsnp 2.0

高速なツール 2024 Preprint phylogenetic tree Inference

2016年以降、NCBIでリファレンスゲノムが利用可能な微生物種の数は3倍以上に増えている。Multiple genome alignmentは、共通の祖先を共有する複数のゲノムのヌクレオチドを特定するプロセスであり、多くの下流の比較解析手法の入力として使用される。Parsnp…

2024-02-01

高速・高感度タンパク質配列アノテーション用ソフトウェア nail

2024 Preprint HMM 高速なツール annotation

新たに塩基配列が決定された生物の多様性は極めて高く、最新の配列データベースは非常に大規模であるため、配列アノテーションにおける感度とスピードという相反するニーズの間で緊張関係が生じている。プロファイル隠れマルコフモデル(pHMM)に基づくアライ…

2024-01-31

塩基配列アラインメント用ライブラリ BSAlign

2024 Preprint

塩基配列アライメントの精度を高めることはゲノム研究において必須の課題である。古典的な動的プログラミングアルゴリズム（Smith-WatermanやNeedleman-Wunschなど）は最適な結果を出すことを保証しているが、その時間の複雑さが大規模配列アライメントへの…

2024-01-31

De novoで散在性反復配列を検出する REPrise

2024 Preprint repetitive sequences large genome

真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…

2024-01-25

タンパク質配列中の疎水性モジュール性を視覚的に探索するBlobulatorのウェブツール

2024 Preprint disordered proteins web tool

疎水性残基のクラスターは構造を取っているタンパク質の安定性を促進し、タンパク質の凝集（aggregation）を促進することが知られている。最近の研究で、連続した疎水性残基クラスター（"blob "と呼ばれる）を同定することが、内在性無秩序タンパク質（IDP）…

2024-01-18

近傍した遺伝子の大規模解析、比較、可視化を行う AnnoView

2024 Preprint GTDB web tool gene cluster KEGG PFAM TIGRFAM archaea bacteria Viruses plasmid

遺伝子近傍の解析と比較は、微生物ゲノムの構造、機能、進化を探索するための強力なアプローチである。ゲノムの可視化や比較のためのツールは数多く存在するが、大規模なゲノムデータベースやユーザーが作成したデータセットを横断してゲノムを探索すること…

2024-01-16

（ヒト）遺伝子スクリーニングの結果をタンパク質の配列と構造にリンクする Genomics 2 Proteins portal

2024 Preprint AlphaFold clinical and diagnostic protein domain variant ranking web tool Human Phenotype Ontology (HPO) human de novo mutation human genome structure viewer

近年のAIを用いた手法の進歩は、構造生物学の分野に革命をもたらした。それと同時に、ハイスループットシークエンシングと機能的ゲノミクス技術により、バリアントの検出と生成がかつてない規模で可能になった。しかし、バリアントをタンパク質構造に「マッ…

2024-01-06

タンパク質コードDNAの高感度かつエラー耐性アノテーションを行う BATH

2024 Preprint HMM 高速なツール

BATHは、タンパク質配列のデータベースまたはプロファイル隠れマルコフモデル（pHMM）へのDNAの直接アラインメントに基づく、タンパク質をコードするDNAの高感度アノテーションツールである。BATHはHMMER3コードベース上に構築されており、わかりやすい入力…

2024-01-04

分類学的シグナルを組み込むことでメタゲノムリードのアノテーションと分類学的プロファイリングを改善する RAT

2023 Preprint metagenome テスト失敗

メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム（MAGs）のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…

2023-12-30

インタラクティブなタンパク質構造解析のためのウェブアプリケーション Foldy

Preprint 2023 web tool AlphaFold folding PAE structure viewer

Foldyは、専門家ではない科学者がAlphaFoldやDiffDockなどのAIベースの高度な構造生物学ツールに簡単にアクセスして利用できるようにするクラウドベースのアプリケーションである。Kubernetes上に構築されているため、大学、学部、研究室がハードウェアリソ…

2023-12-22

メタゲノムロングリードの分類学的分類と定量を行う Melon

2023 Preprint Nanopore long read Pacbio 生物種の推定 (taxonomic profiling) ANI abundance estimation in metagenomics data

ロングリードシーケンスは、複雑な微生物群集の特徴を明らかにする上で大きな可能性を秘めているが、ロングリード専用に設計された分類学的プロファイリングツールはまだ不足している。ここでは、ロングリードのユニークな特性を生かしたマーカーベースの分…

2023-12-21

完全かつ正確な細菌ゲノムアセンブリを行う Hybracter

2023 Preprint snakemake hybrid assembly plasmid

2023/12/23 誤字修正 2024/02/11 help追記ロングリードシークエンスの精度と利用可能性が向上したことで、現在ではハイブリッド（すなわちショートリードとロングリード）アセンブリアプローチを用いて完全な細菌ゲノムが日常的に再構築されている。完全長…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint