Preprint
Long non-coding RNAs(lncRNA)は、タンパク質やDNAを含む他の分子と協調することでその機能を発揮する。一本鎖RNA(ssRNA)と二本鎖DNA(dsDNA)の相互作用によって形成される三重鎖構造(トリプレックス)は、lncRNAが生体内で特定のゲノム配列を標的とす…
マッピングに適したシーケンス削減(MSR)スケッチを提案する。これは高忠実度(HiFi)ロングリード向けのスケッチ手法であり、これらのスケッチを直接操作するアセンブラ「Alice」を提供する。MSRはコンパクトな表現を生成し、(i) アライン可能な配列(2つ…
メタゲノムビニングはメタゲノム解析における重要なステップであり、同一ゲノム由来のコンティグを一貫性のあるグループにクラスタリングすることを目的とする。現代的なワークフローでは、ほとんどのビニングツールはショットガンメタゲノムシーケンスデー…
品質管理はNGSパイプラインの基本的なステップであるが、軽視されがちである。クロスサンプルコンタミネーションやサンプルスワップのような問題を検出することは、データの完全性を管理するために不可欠である。ここでは、ヒトの全ゲノムおよび全トランスク…
細菌種内の変異を正確に検出することは、微生物進化の基礎研究、伝播事象の再構築、抗菌薬耐性変異の同定において極めて重要である。全ゲノムシーケンスから一塩基多型(SNV)を特定する多くのツールが開発されているが、細菌ゲノムの複雑さや、サンプルタイ…
ロングリードシーケンシングとアセンブリアルゴリズムの進歩により、高品質なゲノムアセンブリの生成はより容易かつ費用対効果の高いものとなった。しかし、既存ツールはしばしば限られた指標に依存し、あるいは比較用のリファレンスアセンブリを必要とする…
メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings(コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの)を学習しク…
peakScoutは、ゲノムピークデータと遺伝子アノテーションの間のギャップを迅速かつ容易に埋めるために設計されたコマンドラインおよびウェブベースのバイオインフォマティクスツールであり、研究者が調節エレメントの測定値とその標的遺伝子との関係を理解す…
ウイルスは地球上のあらゆる環境に豊富に存在し、あらゆる細胞生物を感染させる。にもかかわらず、ウイルスはゲノム科学者にとって一種のブラックボックスである。その遺伝的多様性は他の全ての生命体を合わせたものよりも大きく、そのゲノムはシーケンシン…
ゲノムアノテーションは、多様な調節要素や転写バリアントの発見により、ますます包括的になりつつある。しかし、このアノテーション精度の向上は、特に大規模ゲノムやパンゲノムを横断する効率的なクエリに対して重大な課題をもたらす。既存のツールは、大…
2025/09/09 タイトル修正 生命の多様性の広がりは計り知れないが、公開されている核酸配列データは地球規模での遺伝的多様性の分散と進化を垣間見せる。しかし配列データの急速な増加と蓄積は、効率的な解析能力を凌駕している。自由に利用可能なシーケンス…
メタゲノム由来のアミノ酸配列データの増加は、タンパク質の機能、微生物の多様性、進化的関係に対する我々の理解を大きく変えた。しかし、これらのタンパク質の大部分は依然として機能的に未解明である。このような未解明配列を、少数の実験的に機能が確認…
(Prepirntより) メタゲノムアセンブリは、微生物生態系のシーケンシングデータから高品質なゲノムをできるだけ多く再構築することを目的としている。Hi-Fiロングリードなどのアセンブリを容易にする技術的進歩があるにもかかわらず、数百から数千の集団が混…
距離に基づく手法は、その優れた速度、スケーラビリティ、理論的保証により、さまざまな用途で系統樹を再構築する際によく用いられている。しかし、従来のde novoアルゴリズムは立方時間(cubic time)と二次メモリ(quadratic memory)の計算量に制約されて…
TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病…
2025/08/17 指摘いただいた部分を修正 大量の構造コレクションから、機能的に重要な短い3Dパターンである類似したタンパク質構造モチーフを検出することは、計算上非常に困難である。そこで本著者らは Folddisco を開発した。Folddisco は、側鎖の向きを含む…
微生物群集は、地球の健康と生態系プロセスに不可欠な役割を果たしている。高スループットメタゲノムシーケンス技術は、これらの群集の構造と機能に関する前例のない洞察を提供してきた。しかし、既存の配列相同性に基づく手法の感度限界により、メタゲノム…
高スループットデータから予測可能な遺伝子同定は、バイオメディカル研究における重要な課題である。現在の多くのアプローチは、統計的検定を用いて差異的発現遺伝子(DEG)を選択しているが、これらは生物学的な結果の予測という目的と一致しない可能性があ…
ロングリードシーケンスデータは、大規模で複雑な構造変異の検出に有用だが、技術的なアーティファクトが誤った構造変異の検出を引き起こす可能性がある。解析において、ロングリードデータにおけるフォールドバックアーティファクトの存在に気づいた。その…
ロングリードデータのエラー訂正は、ゲノムアセンブリワークフローにおける重要な初期ステップである。倍数性が1を超える生物の場合、リード訂正時にハプロタイプ固有の変異を保持することが重要である。この課題は、複数のハプロタイプを意識した訂正手法の…
環境DNAシーケンシングは、微生物の多様性と生態系に関する我々の理解に革命をもたらした。現在では、地下深部から山の頂上まで、無数の宿主、生物群、条件を網羅する地球全体のマイクロバイオームの塩基配列が決定されている。しかし、シークエンシングや処…
NCBI分類学データベースは、ゲノム情報を分類学的関係にリンクするための主要なリソースであり、科学分野全体で広く利用されており、バイオインフォマティクスにとって極めて重要である。このデータベースは、研究者が分類学的関係を発見し、改良するにつれ…
分子データベースは実験生物学者にとっても計算生物学者にとっても不可欠なリソースである。高品質なゲノムアセンブリの急速な増加により、脊椎動物の多様なグループにわたる系統特異的適応に関連する二次的な遺伝子消失事象について記述した出版物が急増し…
2025/06/07 追記 メタゲノムアセンブリゲノム(MAG)の数は、メタゲノム研究の規模拡大に伴い急速に増加しており、微生物叢研究の急速な進展を牽引している。計算効率と株レベルの解像度の観点から、サンプルごとのアセンブリが標準的な手法となっている。こ…
2025/09/03論文追記 ロングリードシーケンスにより完全な細菌ゲノムアセンブリが可能になるが、個々のアセンブラは不完全であり、しばしば配列レベルや構造エラーが生じる。Trycyclerを用いたコンセンサスアセンブリは精度を向上させることができるが、自動…
2025/09/09 プレプリント引用 ロングリードメタゲノムアセンブリは、マイクロバイオームからの完全なゲノム復元を約束する。しかし、メタゲノムの複雑性は課題をもたらす。本著者らは、PacBio HiFiおよびOxford Nanopore Technologies (ONT) R10.4ロングリー…
長年にわたり、機械学習をベースとしたab initio遺伝子探索アプローチは真核生物のゲノムアノテーションパイプラインの中心的な構成要素であり続けており、現在もそうである。これらのアプローチへの依存は、タンパク質相同性とともに遺伝子アノテーションの…
第3世代のロングリードシーケンス技術は、メタゲノムアセンブリの質を著しく向上させることが示されている。PacBio HiFiで生成された高精度のリードを用いた結果は特に注目すべきもので、手作業なしで数百の環状化された完全なゲノムをメタゲノムアセンブリ…
シーケンス技術の進歩により、研究者は全ゲノムのシーケンスを迅速かつ安価に行えるようになった。しかし、ゲノムアセンブリの改善にもかかわらず、ゲノムアノテーション(タンパク質をコードする遺伝子の同定)は、特に真核生物ゲノムでは依然として困難で…
ウイルスは地球上で最も豊富な生物学的存在であり、多様な生態系において重要な役割を果たしている。さまざまな環境におけるウイルスのカタログ化は、その特性や機能を理解するために不可欠である。メタゲノムシーケンシングは、宿主や環境サンプルからウイ…