Preprint
アミノ酸配列からのタンパク質フォールド予測における最近のブレークスルーは、新しい構造の洪水を解き放った。タンパク質空間への洞察を広げ、生物工学や治療法への実用化を追求する新たな機会をもたらすと同時に、新たな課題も提示している。それと同時に…
Comparative Genome Dashboardは、生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するためのウェブベースのソフトウェアツールである。このツールは細胞機能のハイレベルなグラフィカルな調査を提供し、興味のあるサブシステムをより詳細に調…
最近のロングリードシーケンス技術の進歩により、高品質なゲノムアセンブリの作成が大幅に容易になった。テロメアtoテロメアなギャップレス(T2T)アセンブリは、ゲノムアセンブリの新たなゴールデンスタンダードとなっている。最近、T2Tレベルのリファレン…
ゲノムおよびメタゲノムの比較は、サンプル間で異なる、または共通する遺伝的エレメントを同定することに依存している。これらの遺伝的エレメントは、シークエンシングリードをアセンブルし、アセンブリ中の遺伝的エレメントを同定することによって、または…
2024/06/03 タイトル修正、誤字修正 生物学的配列の大規模なデータベースが利用可能になったことで、遺伝子の多様性と機能を深く探求する機会がもたらされた。細菌防御系は、多様であるがアノテーションが困難な遺伝子の豊富な供給源であり、バイオテクノロ…
微生物群集の全ゲノム配列を決定するメタゲノミクスは、複雑な生態系に対する洞察を提供してきた。新規微生物の発見を容易にし、群集の相互作用を説明し、様々な分野で応用されている。ハイスループットと第3世代シーケンシング技術の進歩は、その普及にさら…
原核生物の転写因子はリガンドによって遺伝子発現を制御するバイオセンサーとして利用可能であるが、現在はバイオセンサーが存在する化学リガンドのランドスケープは極めて限られている。この状況を拡大するために、本著者らは、enzyme reaction databasesの…
ハイスループットシーケンス技術(Next Generation Sequencing; NGS)は、多様な生物学的探究に取り組む研究者によってますます活用されるようになっている。最新のシーケンシングの驚くべきスケールと効率を活用し、ゲノム解析からタンパク質-核酸相互作用…
ロングターミナルリピート(LTR)レトロトランスポゾンは、ほとんどの植物種のゲノムにおいて、反復DNAエレメントの主要なクラスである。配列決定された植物ゲノムの数は加速度的に増加しており、植物ゲノムアセンブリ中のLTRレトロトランスポゾンの効率的な…
一般に公開されている細菌ゲノム配列の数は驚くほど多く(NCBIのGenBankだけでも200万アセンブル)、その数は増え続けている。このような豊富なデータから、これらの配列を進化の文脈の中で位置づける系統解析が求められている。系統的な配置は分類学的な分…
構造情報はミスセンス変異の病原性予測に大きな可能性を持つが、配列データと構造データの間にはよく知られたギャップがあるため、構造に基づく病原性分類法は配列に基づく分類法に比べて限界がある。本著者らは、高精度なタンパク質構造予測手法であるAlpha…
第3世代シークエンシング技術は、高品質でウルトラロングリードを生成できることから人気を博している。さまざまなサンプルや複数のシーケンスプラットフォームから得られたデータセットを比較および包括的な解析に活用することは、生物学的メカニズムの解明…
タンパク質-タンパク質相互作用(PPI)は多くの細胞内プロセスを支えており、変異によるその破壊は疾患の原因となる。AlphaFold2のようなタンパク質構造予測手法の進化と、広範な実験的親和性データの利用可能性に伴い、タンパク質-タンパク質複合体における…
エラーの自己修正は、ロングリードシークエンシングデータの解析において極めて重要な最初のステップである。しかし、この目的のための既存のメソッドのほとんどは、主にエラー率が5%を超えるノイズの多いシーケンスデータ用に調整されており、多くの場合、…
メタゲノムのビニングは、同じゲノムに属するコンティグをクラスタリングすることであり、メタゲノムアセンブリゲノム(MAG)を復元するための重要なステップである。コンティグは、ゲノム全体で一貫したリードカバレッジパターンを利用することで連結される…
大量の16S rRNA遺伝子配列を分類学的に分類するには、OTUへのクラスタリングやノイズ除去法が主流である。本著者らは、個々のアンプリコン配列を迅速かつ正確に分類する新しい分類学的分類ツールspeciateITを開発した(https://github.com/Ravel-Laboratory/…
DNA配列中のパターンを同定し図示することは、様々な生物学的データ解析において極めて重要な作業である。この作業では、DNA配列の基本的な構成要素であるkmmerの集合によってパターンが表現されることが多い。これらのパターンを視覚的に明らかにするために…
2024/04/24 誤字修正 メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム(MAG)の回収である。メタゲノム解析では、シーケンスリードをコンテ…
ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…
Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現…
WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS
ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…
タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…
公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…
メタゲノミクスは、環境およびヒトに関連する微生物群集を研究するための強力なアプローチであり、特に、それらの形成におけるウイルスの役割を研究するためのアプローチでもある。ウイルスゲノムは、高い突然変異率によるゲノムの多様性のため、メタゲノム…
次世代シーケンサー(NGS)は遺伝子研究に革命をもたらしたが、生のシーケンサーリードの前処理は依然として重要なステップである。品質管理(QC)とトリミングのための既存のツールには限界があり、ワークフローが分断されている。本稿では、使いやすいイン…
現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。した…
微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…
2024/05/27 追記 近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複…
2024/02/026 誤字修正 AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3…
#2024/02/22 インストール手順修正 ロングリード・アセンブラは、密接に関連したウイルス株や細菌株を識別する際に問題に直面する。この限界は、多様な菌株が重要な機能的違いを保持している可能性のあるメタゲノム解析の妨げとなっている。本著者らは、菌株…