2024
生物医学文献の広大な領域を探索し、検索を実行したり、それらをバイオインフォマティクス解析と組み合わせたりする過程は、科学文献の指数関数的な増大と、PubMedおよび関連リポジトリを対象とした多数のマイニングツールの存在を考慮すると、困難である。…
異なる形式の配列座標やリファレンスゲノムを扱うことは、遺伝学研究において課題となる。この複雑性は、異なる命名規則を用いる多様なデータソースを変換・調和させる必要性から生じる。手動処理は時間がかかり専門知識を要するため、遺伝データセットの日…
家系図の作成は生物医学研究において繰り返し行われる作業だが、複雑なヒトの家系図を描画できるオンラインツールは少なく、無料のものはさらに限られている。DrawPedはこのギャップを埋めることを目的としている。DrawPedは標準的なPED形式の家系図ファイル…
ハイスループットシーケンスの時代においては、遺伝子バリアントの臨床評価には特別なソフトウェアが必要である。本著者らは、希少疾患遺伝学の分野の臨床医および研究者のために、使いやすいプラットフォームであるREEV(Review, Evaluate and Explain Vari…
ゲノム、トランスクリプトーム、プロテオームデータの解釈に不可欠なエンリッチメント解析は、メタボロミクス分野へも拡大している。さらに、メタ解析やマルチオミクス研究に見られるように、異なる研究やオミクスプラットフォームからのデータを統合する統…
2025/11/05 追記 メタゲノムアセンブリゲノム(MAG)は、メタゲノムシーケンスデータを用いた微生物のダークマター探索に貴重な知見を提供する。しかし、MAG内の汚染が下流解析の結果に重大な影響を及ぼす可能性に対する懸念が高まっている。現在のMAG除染ツ…
構造変異(SV)はヒトゲノムの多様性に大きく寄与し、精密医療において重要な役割を果たす。一分子ロングリードシーケンシング技術の進歩はSV検出に画期的な資源を提供するものの、SVの切断点と配列を正確かつ堅牢に特定することは依然として困難である。本…
細菌の遺伝子機能解明は、食品生産、薬理学、生態学など様々な分野の進展を牽引している。オミクス技術が高次元の表現型データを捕捉する一方で、それらをゲノムデータと関連付けることは困難であり、細菌遺伝子の40~60%が未解明のままである。このボトル…
メタオミクスデータは、微生物の多様性と機能に関する情報が公共のレポジトリで指数関数的に蓄積されているが、派生した情報はデータの種類、研究、または採集された微生物環境に応じて孤立した状態で管理されている。ここでは、生息地、地理、系統関係を超…
ゲノム変異は、1塩基ヌクレオチド多型(SNP)から大規模な構造変異(SV)まで、多様な変化のスペクトラムを構成し、細菌の進化と種分化に重要な役割を果たしている。SNPsとSVsを正確に同定することは、その後の進化研究や疫学研究に有益である。本研究では…
Centrifugerは、微生物ゲノムデータベースとシーケンスリードを比較する効率的な分類手法である。Centrifugerでは、Burrows-Wheeler変換されたゲノム配列は、ランブロック圧縮と呼ばれる新しいスキームを用いて可逆圧縮される。ランブロック圧縮は線形以下の…
メタゲノムシーケンスによって微生物コミュニティを解析する場合、基本的なタスクは、特定のシーケンスリードがどの参照ゲノムに由来するかを決定することである。これにより、微生物の組成に関する情報が得られ、遺伝的変異のマッピングベースの解析が可能…
2025/05/08 誤字修正 正確なタンパク質構造アライメントは、構造的・機能的関係を理解するために不可欠である。ここでは、GTalign-webを紹介する。GTalignは、空間インデックス駆動型のタンパク質構造アライメントツールである。GTalign-webは、DALIおよびFo…
シーケンス技術の進歩により、研究者は全ゲノムのシーケンスを迅速かつ安価に行えるようになった。しかし、ゲノムアセンブリの改善にもかかわらず、ゲノムアノテーション(タンパク質をコードする遺伝子の同定)は、特に真核生物ゲノムでは依然として困難で…
遺伝子内容は生物の生物学的性質を制御しており、種間および同一種内の個体間で変化する。細菌ゲノムにおける遺伝子内容の変化を特定するツールは開発されているが、ヒトパンゲノムのような大規模な真核生物ゲノムのコレクションには適用可能なものは存在し…
25年以上にわたり、学習ベースの真核生物遺伝子予測は、DNA配列を直接入力する隠れマルコフモデル(HMM)によって駆動されてきた。最近、HolstらはHelixerを用いて、深層学習とHMMポストプロセッサーを組み合わせることでab initio真核生物遺伝子予測の精度…
系統樹は、分類群間あるいは遺伝子間の進化的関係を示す。樹形図は結果やデータを提示する際に非常に重要であり、明確で効果的なプロットを作成することで、研究者は多くの種類の進化パターンを説明することができる。しかし、系統樹を作成するのは時間のか…
古代メタゲノムデータセットのde novoアセンブリは困難な作業である。シークエンシングされた古代DNA分子は、超短断片サイズと特徴的な死後損傷パターンにより、現在のツールでは理想的なアセンブリを行うことができない。CarpeDeamは、古代メタゲノムサンプ…
メタゲノムをデータベースと照合してプロファイリングすることで、アセンブルが不可能な低存在量でも微生物の検出と定量が可能になる。本著者らは、ゼロインフレートポアソンk-mer統計量を用いてゲノム間平均ヌクレオチド同一性(ANI)を推定し、ANIに基づく…
ProTrekは、配列、構造、自然言語機能(SSF)をシームレスに融合し、先進的なトライモーダル言語モデルにすることで、タンパク質探索を再定義する。対照学習により、ProTrekはタンパク質データと人間の理解とのギャップを埋め、9つのSSFペアワイズモダリティの…
デノボタンパク質設計は、タンパク質工学における基本的な追求であるが、現在のディープラーニングアプローチは、その狭い設計範囲によって制約されたままである。Pinalは、自然言語理解とタンパク質設計空間の架け橋となり、人間の設計意図を新規タンパク質…
ゲノムのシーケンシングがますます盛んになるにつれ、得られたアセンブリーのアノテーションの必要性が高まっている。構造的・機能的アノテーションは、正しい遺伝子配列を見つけること、RNAなどの他の要素にアノテーションを付けること、それらのデータをデ…
あるクレードのほとんどのメンバーに共通するシングルコピーのコア遺伝子の解析は、系統復元やゲノムの質の評価など、生物学における重要な課題にとって重要である。コア遺伝子は従来、プロテオーム間のアミノ酸類似性の解析によって同定されてきたが、構造…
ゲノム検索や分類は、データベース(参照ゲノム)に最もマッチするゲノムを見つけることが一般的であるが、利用可能なデータベースゲノムの数が増加していることや、従来の手法が大規模なデータベースに対してうまくスケールしないという事実により、ますま…
未培養生物種のゲノムスケール代謝モデル(GEM)を正確に再構築することは、メタゲノムアセンブリゲノム(MAG)に典型的に見られる不完全で断片的な遺伝情報のために困難である。既存のツールは単一ゲノムの配列相同性を利用しているが、本研究ではpan-Draft…
正確な多重配列アライメント(MSA)は、包括的な生物学的配列解析に不可欠である。しかしながら、進化関係が複雑であるため、一般的なアラインメントツールでは十分に対応できない変異がしばしば生じる。この問題を解決するためには、リアラインメントが極め…
急速に増加するタンパク質配列データベースの進化情報を検索するには、常に高速化が必要である。これは、配列のフィルタリングやギャップアラインメントを実行する革新的なアルゴリズムによって達成される。ここでは、8GPUで最大100TCUPSを達成するギャップ…
mmlong2はNanoporeまたはPacBio HiFiシーケンスデータから原核生物ゲノムを自動回収・解析するゲノム中心のロングリードメタゲノミクスワークフローである。mmlong2ワークフローはmmlongを継承している。mmlong2はロングリード専用のワークフローであり、Nan…
2025/06/06 論文引用 テロメア・ツー・テロメア・コンソーシアムは最近、ヒトゲノムの初の完全な配列を完成させた。最も複雑な繰り返しを解決するために、このプロジェクトは、長くて正確なPacBio HiFiとウルトラロングOxford Nanoporeシーケンスリードの半…
Molecular Evolutionary Genetics Analysis (MEGA12)ソフトウェアの第12版を紹介する。この最新バージョンでは、最適な置換モデルの選択と、最尤法(ML法)を用いた系統のブートストラップ検定に必要な計算時間を短縮することで、多くの重要な改良が加えられ…