Preprint
2024/04/24 誤字修正 メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム(MAG)の回収である。メタゲノム解析では、シーケンスリードをコンテ…
ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…
Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現…
WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS
ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…
タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…
公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…
メタゲノミクスは、環境およびヒトに関連する微生物群集を研究するための強力なアプローチであり、特に、それらの形成におけるウイルスの役割を研究するためのアプローチでもある。ウイルスゲノムは、高い突然変異率によるゲノムの多様性のため、メタゲノム…
次世代シーケンサー(NGS)は遺伝子研究に革命をもたらしたが、生のシーケンサーリードの前処理は依然として重要なステップである。品質管理(QC)とトリミングのための既存のツールには限界があり、ワークフローが分断されている。本稿では、使いやすいイン…
現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。した…
微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…
近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複数種の比較ゲノム…
2024/02/026 誤字修正 AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3…
#2024/02/22 インストール手順修正 ロングリード・アセンブラは、密接に関連したウイルス株や細菌株を識別する際に問題に直面する。この限界は、多様な菌株が重要な機能的違いを保持している可能性のあるメタゲノム解析の妨げとなっている。本著者らは、菌株…
微生物サンプルの解析は、その多様性と複雑性のために、依然として計算上困難である。ロバストなde novoタンパク質機能予測法の欠如は、これらのサンプルから機能的洞察を導き出すことの難しさを悪化させている。相同性や配列の類似性に依存する従来の予測手…
2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…
ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…
2024/02/07 タイトル変更 人工知能はタンパク質構造予測の分野に革命をもたらした。しかし、より強力で複雑なソフトウェアが開発されるにつれ、エンドユーザーにとって制限要因になりつつあるのは、能力よりもむしろアクセシビリティと使いやすさである。こ…
2016年以降、NCBIでリファレンスゲノムが利用可能な微生物種の数は3倍以上に増えている。Multiple genome alignmentは、共通の祖先を共有する複数のゲノムのヌクレオチドを特定するプロセスであり、多くの下流の比較解析手法の入力として使用される。Parsnp…
新たに塩基配列が決定された生物の多様性は極めて高く、最新の配列データベースは非常に大規模であるため、配列アノテーションにおける感度とスピードという相反するニーズの間で緊張関係が生じている。プロファイル隠れマルコフモデル(pHMM)に基づくアライ…
塩基配列アライメントの精度を高めることはゲノム研究において必須の課題である。古典的な動的プログラミングアルゴリズム(Smith-WatermanやNeedleman-Wunschなど)は最適な結果を出すことを保証しているが、その時間の複雑さが大規模配列アライメントへの…
真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…
疎水性残基のクラスターは構造を取っているタンパク質の安定性を促進し、タンパク質の凝集(aggregation)を促進することが知られている。最近の研究で、連続した疎水性残基クラスター("blob "と呼ばれる)を同定することが、内在性無秩序タンパク質(IDP)…
遺伝子近傍の解析と比較は、微生物ゲノムの構造、機能、進化を探索するための強力なアプローチである。ゲノムの可視化や比較のためのツールは数多く存在するが、大規模なゲノムデータベースやユーザーが作成したデータセットを横断してゲノムを探索すること…
近年のAIを用いた手法の進歩は、構造生物学の分野に革命をもたらした。それと同時に、ハイスループットシークエンシングと機能的ゲノミクス技術により、バリアントの検出と生成がかつてない規模で可能になった。しかし、バリアントをタンパク質構造に「マッ…
BATHは、タンパク質配列のデータベースまたはプロファイル隠れマルコフモデル(pHMM)へのDNAの直接アラインメントに基づく、タンパク質をコードするDNAの高感度アノテーションツールである。BATHはHMMER3コードベース上に構築されており、わかりやすい入力…
メタゲノム解析には、リードベースの分類学的プロファイリング、アセンブル、メタゲノムアセンブリゲノム(MAGs)のビニングが一般的である。ここでは、これらのステップを統合したRead Annotation Tool (RAT)を報告する。RATを使ってMAGやコンティグから得…
Foldyは、専門家ではない科学者がAlphaFoldやDiffDockなどのAIベースの高度な構造生物学ツールに簡単にアクセスして利用できるようにするクラウドベースのアプリケーションである。Kubernetes上に構築されているため、大学、学部、研究室がハードウェアリソ…
ロングリードシーケンスは、複雑な微生物群集の特徴を明らかにする上で大きな可能性を秘めているが、ロングリード専用に設計された分類学的プロファイリングツールはまだ不足している。ここでは、ロングリードのユニークな特性を生かしたマーカーベースの分…
2023/12/23 誤字修正 2024/02/11 help追記 ロングリードシークエンスの精度と利用可能性が向上したことで、現在ではハイブリッド(すなわちショートリードとロングリード)アセンブリアプローチを用いて完全な細菌ゲノムが日常的に再構築されている。完全長…
植物に有益な微生物は、持続可能な植物生産や植物衛生上の実践において重要性を増している。しかし、植物成長促進(PGP)に関連する細菌形質を対象とした計算論的アプローチが不足しており、植物刺激性細菌株のin-silico同定、比較、選択を妨げている。この…