2022
メタゲノムコンティグを潜在的なゲノムにクラスタリングすることは、微生物集団の機能的役割を調査する上で重要なステップである。既存のアルゴリズムは、シミュレーションまたは実際のシーケンスデータセットでかなりの成功を収めている。しかし、複雑なメ…
ヒトゲノムには数百の低コピー反復配列(LCR)が存在するが、コピー数のばらつきが大きく、リードマッピングがあいまいなため、ショートリードシーケンス技術による解析は困難である。LCRに重複する150以上の重複遺伝子のコピー数および配列の変異は、単発性…
2025/05/08 追記 BWA-MEM-SCALEはBWA-MEM2およびBWA-Michをベースに、ゲノム配列アライメントの全ステップにおける性能向上を実現した。Exact Match Filter (EMF)、FM-index Accelerator (FMA)、様々な最適化技術が追加されている。BWA-MEM-SCALEは、利用可…
レポジトリより BUSCOMPはBUSCOの非決定論的限界を克服するために設計されている。アセンブリから完全なBUSCOの冗長でない最大集合をコンパイルし、この集合を用いて同じゲノムの異なるアセンブリ間の完全性の "真の "比較を予測可能な挙動で提供する。各BUS…
生物種を超えてパスウェイや遺伝子が保存されていることから、科学者はヒト以外のモデル生物を用いてヒトの生物学をより深く理解することができるようになった。しかし、マウス、ラット、ゼブラフィッシュのような伝統的なモデル系を使用することは、コスト…
環境サンプルから生成されたメタゲノム・データは、現代および古代の生物群集の解析においてますます一般的になってきている。この種のデータから分類学的プロフィールを得るためには、DNA配列を大規模なゲノム参照データベースに対してアラインメントし、各…
最近のロングリードシーケンスの進歩により、ヒトゲノムのテロメア間(完全)アセンブリが可能になり、現在では複数のヒトゲノムのハプロタイプを分解した完全アセンブリに貢献している。反復性の高い領域ではリードマッピングツールの精度が低下するため、…
タンパク質の機能は、その結合特異性や触媒活性を決定する機能的残基によって左右されるが、通常、タンパク質の機能をアノテーションする際にこれらの残基は考慮されない。生物学者がタンパク質の機能的残基を調べるのを助けるために、本著者らは2つの対話型…
新規の異化酵素とトランスポーターを発見するために、本著者らは29のバクテリアのハイスループット遺伝子データと、異化経路のギャップを見つける自動化ツールを組み合わせた。GapMind for carbon sourcesは、細菌および古細菌ゲノムにおける62種類の化合物…
細菌マイクロバイオームの解析は日常的に行われるようになったが、真菌マイクロバイオームの解析は、頑健なデータベースとバイオインフォマティック・パイプラインの欠如によって、いまだに妨げられている。ここでは、真菌を同定するための分類学的データベ…
2024/02/28 コマンド修正 インテグロンは柔軟な遺伝子交換プラットフォームであり、アクセサリー遺伝子をコードする複数のカセットを含み、その順序は特定のインテグラーゼによってシャッフルされる。移動性遺伝要素に組み込まれたインテグロンには、しばし…
2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…
タンパク質構造はDNA構造よりも複雑で多様であり、通常、機能、相互作用、生物学的注釈の解釈に影響を与える。Reduced amino acid alphabets (Raaa) は、タンパク質の複雑さを軽減し、機能的に保存された領域を同定する強力な能力を示す。RaacFoldは、58の還…
系統学的研究やゲノムワイドな選択調査などの分子進化研究は、しばしばシングルコピーオルソログ(SC-OG)の遺伝子ファミリーに依存している。トランスポーターや転写因子などいくつかの重要な遺伝子ファミリーに見られる現象であるが、1つ以上の種に複数の…
配列決定されたゲノムの数が増え続けており、比較ゲノムのためのパンゲノムアプローチの開発が必要とされている。2016年に発表されたPanToolsは、パンゲノム構築、ホモロジーグループ化、パンゲノムリードマッピングを可能にするプラットフォームである。グ…
マニュアルより AEGeAn Toolkitは、全ゲノム遺伝子構造アノテーションを管理・解析するツールを構築するための、いくつかの異なるが関連した取り組みとして始まった。AEGeAnはこれらの取り組みを一つのライブラリにまとめ、実行可能なプログラムだけでなく、…
多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…
2024/02/12 誤字修正、11/03 コマンド修正、2024/12/29追記 2025/01/15 追記 Pacific Biosciences (PacBio)やOxford Nanopore Technologies (ONT)などのロングリードシーケンサーは、そのリード長や精度を向上させ、これまでにない研究を開拓している。ロン…
Orthology Benchmark Service (https://orthology.benchmarkservice.org)は、Quest for Orthologsコンソーシアムによってサポート・維持されている、orthology inference 評価のゴールドスタンダードである。これは、標準的なデータセットと共通の手順で、既…
ライフオミクスの時代、膨大な量のマルチオミクスデータが生成され、生物医学研究に広く利用されるようになった。プログラミングスキルの低い生物学者がマルチオミクスデータから生物学的知見を得ることは困難である。そのため、複雑なオミクスデータを扱い…
最近のブレイクスルーで、深層学習を用いて複数配列アラインメント(MSA)の進化情報を利用し、タンパク質の構造を正確に予測することができるようになった。しかし、オーファンタンパク質や抗体のような進化の早いタンパク質のように、相同タンパク質のMSA…
昆虫は地球上で最大の動物群であり、資源の提供、病気の媒介、農作物生産の被害など、人間の生活に大きな影響を及ぼしている。近年、昆虫のゲノムや遺伝子のデータが大量に生成されている。これらのリソースを管理、共有、マイニングするためには、包括的な…
遺伝子中心のバイオインフォマティクス研究では、遺伝子モデルを操作して、スプライスサイト、プロモーター、独立イントロン、非翻訳領域(UTR)など、遺伝子の様々な特徴を計算または抽出することが頻繁に行われる。遺伝子モデルは、GTF(Gene Transfer Form…
病原体やその系統の解析では、一塩基多型(SNP)を用いてその進化史を再構築することが一般的である。しかし、ゲノムワイドなSNPベースの系統樹がさらなる情報なしに解析されることはほとんどない。SNPのデータだけでなく、サンプルのメタデータも含めて解析…
次世代シーケンサーによる実験では、データの探索的解析、トレンドの解釈、ターゲット/候補の特定、結果のわかりやすい直感的な可視化などが大きな課題となってる。これらの課題は、利用可能な解析ツールの大半がプログラミングスキルを必要とするため、コン…
Extrachromosomal circular DNAs(eccDNA)は、染色体から物理的に分離したリング状のDNA構造で、100bpから数メガバイトの大きさである。eccDNAは、タンデムに繰り返されるDNAの他に、遺伝子のコピーや最近活性化したトランスポゾームエレメントを持つことが…
プラスミドには、病原因子や抗生物質耐性機構をコードする遺伝子が含まれていることが知られている。メタゲノミクスデータ処理におけるその関連性は着実に高まっている。しかし、メタゲノム実験の普及と規模の拡大に伴い、報告されるプラスミドの数も急速に…
Genome-resolved metagenomicsの正確で包括的な解析は、多様な微生物群からリファレンス品質(完全で高品質な)のゲノムを再構築することに大きく依存している。Nanoporeロングリードにより、ドラフトゲノムのギャップ解消が進んでいるが、ゲノム品質の向上…
大規模な比較ゲノム研究や集団遺伝学研究では、DNAバリアントという形で膨大な量の多型データが生成される。これらの研究の最終的な目的は、遺伝的変異を表現型やフィットネスに関連付けることである。VIVIDは、あらゆる生物・疾患の遺伝型から表現型までの…
ゲノムのハイスループットシーケンスの急速な発展により、豊富なエピジェネティクスマーカーを持つDNA制御要素が多数同定され、機能性ゲノム領域データの急速な蓄積が促進されている。ヒトの機能性ゲノム領域の網羅的な理解と研究は、現在でも比較的急務の課…