2025
ここでは、リードのフェージング情報を遺伝子型尤度に組み込むことでSVの遺伝子型判定を改善する手法SVUPPを提案する。包括的なベンチマーク評価により、SVUPPは近傍にSVが存在しない場合のSV遺伝子型判定において、オックスフォード・ナノポア・テクノロジ…
植物材料の分解は地球規模の炭素循環の主要な推進力であり、従来は菌類や細菌に起因すると考えられてきた。しかし、一部の無脊椎動物も、水平遺伝子移動によって獲得された可能性のある、細菌や真菌のセルロース分解酵素のオルソログを保有している。この網…
Long non-coding RNAs(lncRNA)は、タンパク質やDNAを含む他の分子と協調することでその機能を発揮する。一本鎖RNA(ssRNA)と二本鎖DNA(dsDNA)の相互作用によって形成される三重鎖構造(トリプレックス)は、lncRNAが生体内で特定のゲノム配列を標的とす…
2025/11/05 誤字修正 メタゲノムシーケンシングの急速な発展により、メタゲノムアセンブルゲノム(MAG)の前例のない膨大なデータが生成され、微生物の発見および機能的特徴づけの機会が一変した。しかしながら、これらの資源を完全に活用することは、データ…
Microbiome Community Detector (MiCoDe) は、ベイジアン加重確率的ブロックモデルを用いて微生物分類群のネットワークをコミュニティにクラスタリングする、無料の使いやすいウェブツールである。MiCoDeはデータを自動的にフィルタリングし、高次元性、構成…
メタゲノムデータにおける微生物の分類群と相対的豊度の決定は、技術的に依然として困難である。本研究では、普遍的マーカー遺伝子内の保存領域を用いて群集構成を推定する「SingleM」を提案する。ゲノム情報が欠如した種を正確に組み込むことで、未知種がほ…
マッピングに適したシーケンス削減(MSR)スケッチを提案する。これは高忠実度(HiFi)ロングリード向けのスケッチ手法であり、これらのスケッチを直接操作するアセンブラ「Alice」を提供する。MSRはコンパクトな表現を生成し、(i) アライン可能な配列(2つ…
メタゲノムビニングはメタゲノム解析における重要なステップであり、同一ゲノム由来のコンティグを一貫性のあるグループにクラスタリングすることを目的とする。現代的なワークフローでは、ほとんどのビニングツールはショットガンメタゲノムシーケンスデー…
品質管理はNGSパイプラインの基本的なステップであるが、軽視されがちである。クロスサンプルコンタミネーションやサンプルスワップのような問題を検出することは、データの完全性を管理するために不可欠である。ここでは、ヒトの全ゲノムおよび全トランスク…
公開リポジトリで利用可能な生物学的シーケンスデータの量は急速に増加しており、生物医学にとって重要な資源を形成している。しかし、これらのデータを効率的かつ正確に全文検索可能にすることは依然として課題である。本研究では、大規模なシーケンスセッ…
FastGAは、同等の感度を持つ従来手法と比較して1桁以上高速に2つのゲノム配列間のアラインメントを発見する。その高速性は以下の要因による:(a) MSD基数ソートとマージのみを伴う完全キャッシュローカルアーキテクチャ、(b) ソート済みk-merテーブルの線形…
非モデル生物におけるゲノム解析では、タンパク質コード遺伝子の正確なアノテーションが極めて重要である。しかし、限られたRNA-Seqデータと不完全なタンパク質リソースは、誤ったアノテーションを引き起こす可能性がある。例えば、隣接する2つ以上の遺伝子…
細菌種内の変異を正確に検出することは、微生物進化の基礎研究、伝播事象の再構築、抗菌薬耐性変異の同定において極めて重要である。全ゲノムシーケンスから一塩基多型(SNV)を特定する多くのツールが開発されているが、細菌ゲノムの複雑さや、サンプルタイ…
ロングリードシーケンシングとアセンブリアルゴリズムの進歩により、高品質なゲノムアセンブリの生成はより容易かつ費用対効果の高いものとなった。しかし、既存ツールはしばしば限られた指標に依存し、あるいは比較用のリファレンスアセンブリを必要とする…
メタゲノム・ビニングのための最近の深層学習手法のいくつかは、高品質なメタゲノムアセンブリゲノムの回収率向上を主張している。これらの手法は、contig embeddings(コンティグの主要な特徴量を固定次元のベクトルに変換する操作を行ったもの)を学習しク…
微生物群集のメタゲノム解析は、メタゲノムアセンブリゲノム(MAG)の再構築により、種間および種内の遺伝的多様性が非常に高いレベルで存在することを明らかにした。MAGデータベース(MAGdb)は、臨床、環境、動物のカテゴリーにまたがる74の代表的な研究論…
2025/09/19 追記 fastpのversion 1.0がリリースされ、フォルダ内のfastqをバッチ処理する便利なスクリプトも提供されました。このスクリプトの使い方を確認しておきます。 インストール 最新のfastpにパスが通っている必要がある。fastpのバージョンが1未満…
peakScoutは、ゲノムピークデータと遺伝子アノテーションの間のギャップを迅速かつ容易に埋めるために設計されたコマンドラインおよびウェブベースのバイオインフォマティクスツールであり、研究者が調節エレメントの測定値とその標的遺伝子との関係を理解す…
ウイルスは地球上のあらゆる環境に豊富に存在し、あらゆる細胞生物を感染させる。にもかかわらず、ウイルスはゲノム科学者にとって一種のブラックボックスである。その遺伝的多様性は他の全ての生命体を合わせたものよりも大きく、そのゲノムはシーケンシン…
ゲノムアノテーションは、多様な調節要素や転写バリアントの発見により、ますます包括的になりつつある。しかし、このアノテーション精度の向上は、特に大規模ゲノムやパンゲノムを横断する効率的なクエリに対して重大な課題をもたらす。既存のツールは、大…
2025/09/09 タイトル修正 生命の多様性の広がりは計り知れないが、公開されている核酸配列データは地球規模での遺伝的多様性の分散と進化を垣間見せる。しかし配列データの急速な増加と蓄積は、効率的な解析能力を凌駕している。自由に利用可能なシーケンス…
メタゲノム由来のアミノ酸配列データの増加は、タンパク質の機能、微生物の多様性、進化的関係に対する我々の理解を大きく変えた。しかし、これらのタンパク質の大部分は依然として機能的に未解明である。このような未解明配列を、少数の実験的に機能が確認…
(Prepirntより) メタゲノムアセンブリは、微生物生態系のシーケンシングデータから高品質なゲノムをできるだけ多く再構築することを目的としている。Hi-Fiロングリードなどのアセンブリを容易にする技術的進歩があるにもかかわらず、数百から数千の集団が混…
RNAシーケンスは遺伝子アイソフォームの定量に広く応用されているが、複雑な遺伝子のアイソフォームを正確に定量するには、特にショートリードでは限界がある。ここでは、ショートリードでは正確な定量が困難な遺伝子を同定し、これらの領域の定量にロングリ…
正確なゲノムアセンブリは生物学的研究に不可欠であるが、どんなに高品質なアセンブリであっても、それを構築するために使用された技術によって引き起こされたエラーは残る。通常、塩基レベルのエラーは、ドラフトアセンブリにアライメントされたリードを用…
距離に基づく手法は、その優れた速度、スケーラビリティ、理論的保証により、さまざまな用途で系統樹を再構築する際によく用いられている。しかし、従来のde novoアルゴリズムは立方時間(cubic time)と二次メモリ(quadratic memory)の計算量に制約されて…
TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病…
2025/08/17 指摘いただいた部分を修正 大量の構造コレクションから、機能的に重要な短い3Dパターンである類似したタンパク質構造モチーフを検出することは、計算上非常に困難である。そこで本著者らは Folddisco を開発した。Folddisco は、側鎖の向きを含む…
微生物群集は、地球の健康と生態系プロセスに不可欠な役割を果たしている。高スループットメタゲノムシーケンス技術は、これらの群集の構造と機能に関する前例のない洞察を提供してきた。しかし、既存の配列相同性に基づく手法の感度限界により、メタゲノム…
高スループットデータから予測可能な遺伝子同定は、バイオメディカル研究における重要な課題である。現在の多くのアプローチは、統計的検定を用いて差異的発現遺伝子(DEG)を選択しているが、これらは生物学的な結果の予測という目的と一致しない可能性があ…