macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Preprint

RNA:DNA三重鎖の予測と解析のためのインタラクティブなプラットフォーム 3plex Web

Long non-coding RNAs(lncRNA)は、タンパク質やDNAを含む他の分子と協調することでその機能を発揮する。一本鎖RNA(ssRNA)と二本鎖DNA(dsDNA)の相互作用によって形成される三重鎖構造(トリプレックス)は、lncRNAが生体内で特定のゲノム配列を標的とす…

MSRスケッチングに基づくHiFiリードの高速かつハプロタイプ認識型(aware)のアセンブリを行う Alice

マッピングに適したシーケンス削減(MSR)スケッチを提案する。これは高忠実度(HiFi)ロングリード向けのスケッチ手法であり、これらのスケッチを直接操作するアセンブラ「Alice」を提供する。MSRはコンパクトな表現を生成し、(i) アライン可能な配列(2つ…

組成とカバレッジの分離によるグラフベースのメタゲノムビニングを行う CoCoBin

メタゲノムビニングはメタゲノム解析における重要なステップであり、同一ゲノム由来のコンティグを一貫性のあるグループにクラスタリングすることを目的とする。現代的なワークフローでは、ほとんどのビニングツールはショットガンメタゲノムシーケンスデー…

ヒトNGSデータにおけるコンタミネーションと血縁関係の検出、定量ツール NGSTroubleFinder

品質管理はNGSパイプラインの基本的なステップであるが、軽視されがちである。クロスサンプルコンタミネーションやサンプルスワップのような問題を検出することは、データの完全性を管理するために不可欠である。ここでは、ヒトの全ゲノムおよび全トランスク…

深層学習を用いて細菌分離株の高精度なSNVコールを行う AccuSNV

細菌種内の変異を正確に検出することは、微生物進化の基礎研究、伝播事象の再構築、抗菌薬耐性変異の同定において極めて重要である。全ゲノムシーケンスから一塩基多型(SNV)を特定する多くのツールが開発されているが、細菌ゲノムの複雑さや、サンプルタイ…

ロングリードベースの真核生物アセンブリを7つの指標で評価する PAQman

ロングリードシーケンシングとアセンブリアルゴリズムの進歩により、高品質なゲノムアセンブリの生成はより容易かつ費用対効果の高いものとなった。しかし、既存ツールはしばしば限られた指標に依存し、あるいは比較用のリファレンスアセンブリを必要とする…

McDevol

メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings(コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの)を学習しク…

ピークコール結果から遺伝子へのマッピングを行う peakScout

peakScoutは、ゲノムピークデータと遺伝子アノテーションの間のギャップを迅速かつ容易に埋めるために設計されたコマンドラインおよびウェブベースのバイオインフォマティクスツールであり、研究者が調節エレメントの測定値とその標的遺伝子との関係を理解す…

ゲノムアセンブリからウイルスゲノムを発見して正確なアノテーションをつける Cenote-Taker 3

ウイルスは地球上のあらゆる環境に豊富に存在し、あらゆる細胞生物を感染させる。にもかかわらず、ウイルスはゲノム科学者にとって一種のブラックボックスである。その遺伝的多様性は他の全ての生命体を合わせたものよりも大きく、そのゲノムはシーケンシン…

超高速なGFF操作ユーティティ GFFx

ゲノムアノテーションは、多様な調節要素や転写バリアントの発見により、ますます包括的になりつつある。しかし、このアノテーション精度の向上は、特に大規模ゲノムやパンゲノムを横断する効率的なクエリに対して重大な課題をもたらす。既存のツールは、大…

全SRAデータをインデックス化して塩基/タンパク質の配列検索を可能にした LoganとLogan Search

2025/09/09 タイトル修正 生命の多様性の広がりは計り知れないが、公開されている核酸配列データは地球規模での遺伝的多様性の分散と進化を垣間見せる。しかし配列データの急速な増加と蓄積は、効率的な解析能力を凌駕している。自由に利用可能なシーケンス…

タンパク質ファミリー生成のためのスケーラブルなパイプライン proteinfamilies

メタゲノム由来のアミノ酸配列データの増加は、タンパク質の機能、微生物の多様性、進化的関係に対する我々の理解を大きく変えた。しかし、これらのタンパク質の大部分は依然として機能的に未解明である。このような未解明配列を、少数の実験的に機能が確認…

ロングリードメタゲノムの解析と評価のためのsnakemakeパイプライン (MAEPLR)

(Prepirntより) メタゲノムアセンブリは、微生物生態系のシーケンシングデータから高品質なゲノムをできるだけ多く再構築することを目的としている。Hi-Fiロングリードなどのアセンブリを容易にする技術的進歩があるにもかかわらず、数百から数千の集団が混…

(GPU対応) 距離ベースの系統解析を超高速に行う DIPPER

距離に基づく手法は、その優れた速度、スケーラビリティ、理論的保証により、さまざまな用途で系統樹を再構築する際によく用いられている。しかし、従来のde novoアルゴリズムは立方時間(cubic time)と二次メモリ(quadratic memory)の計算量に制約されて…

潜在的な病原体の検出を可能にするメタゲノムシーケンスデータ解析パイプライン TaxTriage

TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病…

タンパク質構造のモチーフを超高速に検索する Folddisco

2025/08/17 指摘いただいた部分を修正 大量の構造コレクションから、機能的に重要な短い3Dパターンである類似したタンパク質構造モチーフを検出することは、計算上非常に困難である。そこで本著者らは Folddisco を開発した。Folddisco は、側鎖の向きを含む…

構造ガイド付きアノテーションパイプライン EcoFoldDB-annotate

微生物群集は、地球の健康と生態系プロセスに不可欠な役割を果たしている。高スループットメタゲノムシーケンス技術は、これらの群集の構造と機能に関する前例のない洞察を提供してきた。しかし、既存の配列相同性に基づく手法の感度限界により、メタゲノム…

DEG解析の密度ベースの代替手法 EPCY

高スループットデータから予測可能な遺伝子同定は、バイオメディカル研究における重要な課題である。現在の多くのアプローチは、統計的検定を用いて差異的発現遺伝子(DEG)を選択しているが、これらは生物学的な結果の予測という目的と一致しない可能性があ…

ロングリードからフォールドバックアーティファクトを検出する breakinator

ロングリードシーケンスデータは、大規模で複雑な構造変異の検出に有用だが、技術的なアーティファクトが誤った構造変異の検出を引き起こす可能性がある。解析において、ロングリードデータにおけるフォールドバックアーティファクトの存在に気づいた。その…

ハプロタイプを考慮したロングリードのエラー訂正を行う HALE

ロングリードデータのエラー訂正は、ゲノムアセンブリワークフローにおける重要な初期ステップである。倍数性が1を超える生物の場合、リード訂正時にハプロタイプ固有の変異を保持することが重要である。この課題は、複数のハプロタイプを意識した訂正手法の…

地球の微生物生態系に関するグローバルな動向と洞察を得る MicrobeAtlas

環境DNAシーケンシングは、微生物の多様性と生態系に関する我々の理解に革命をもたらした。現在では、地下深部から山の頂上まで、無数の宿主、生物群、条件を網羅する地球全体のマイクロバイオームの塩基配列が決定されている。しかし、シークエンシングや処…

分類学の変遷に対応するためのリソース Taxonomy Time Machine

NCBI分類学データベースは、ゲノム情報を分類学的関係にリンクするための主要なリソースであり、科学分野全体で広く利用されており、バイオインフォマティクスにとって極めて重要である。このデータベースは、研究者が分類学的関係を発見し、改良するにつれ…

キュレーションされたgene lossに関するデータベース Gene Loss DB

分子データベースは実験生物学者にとっても計算生物学者にとっても不可欠なリソースである。高品質なゲノムアセンブリの急速な増加により、脊椎動物の多様なグループにわたる系統特異的適応に関連する二次的な遺伝子消失事象について記述した出版物が急増し…

Dereplicationと再アセンブリによってMAGの品質を向上させる MAGmax

2025/06/07 追記 メタゲノムアセンブリゲノム(MAG)の数は、メタゲノム研究の規模拡大に伴い急速に増加しており、微生物叢研究の急速な進展を牽引している。計算効率と株レベルの解像度の観点から、サンプルごとのアセンブリが標準的な手法となっている。こ…

細菌ゲノムのロングリードコンセンサスアセンブリを行う Autocycler

2025/09/03論文追記 ロングリードシーケンスにより完全な細菌ゲノムアセンブリが可能になるが、個々のアセンブラは不完全であり、しばしば配列レベルや構造エラーが生じる。Trycyclerを用いたコンセンサスアセンブリは精度を向上させることができるが、自動…

ロングリードのメタゲノムアセンブラ myloasm

2025/09/09 プレプリント引用 ロングリードメタゲノムアセンブリは、マイクロバイオームからの完全なゲノム復元を約束する。しかし、メタゲノムの複雑性は課題をもたらす。本著者らは、PacBio HiFiおよびOxford Nanopore Technologies (ONT) R10.4ロングリー…

効率的なエビデンスベースのゲノムアノテーションを行う EviAnn

長年にわたり、機械学習をベースとしたab initio遺伝子探索アプローチは真核生物のゲノムアノテーションパイプラインの中心的な構成要素であり続けており、現在もそうである。これらのアプローチへの依存は、タンパク質相同性とともに遺伝子アノテーションの…

ナノポアリードからの高品質メタゲノムアセンブリを行う nanoMDBG

第3世代のロングリードシーケンス技術は、メタゲノムアセンブリの質を著しく向上させることが示されている。PacBio HiFiで生成された高精度のリードを用いた結果は特に注目すべきもので、手作業なしで数百の環状化された完全なゲノムをメタゲノムアセンブリ…

複数の遺伝子アノテーション手法からの構造情報を統合し、対象の種のコンセンサスアノテーションを生成する OMAnnotator

シーケンス技術の進歩により、研究者は全ゲノムのシーケンスを迅速かつ安価に行えるようになった。しかし、ゲノムアセンブリの改善にもかかわらず、ゲノムアノテーション(タンパク質をコードする遺伝子の同定)は、特に真核生物ゲノムでは依然として困難で…

推定ウイルスコンティグの完全性と汚染を評価する ViralQC

ウイルスは地球上で最も豊富な生物学的存在であり、多様な生態系において重要な役割を果たしている。さまざまな環境におけるウイルスのカタログ化は、その特性や機能を理解するために不可欠である。メタゲノムシーケンシングは、宿主や環境サンプルからウイ…