eukaryotic genome annotation
非モデル生物におけるゲノム解析では、タンパク質コード遺伝子の正確なアノテーションが極めて重要である。しかし、限られたRNA-Seqデータと不完全なタンパク質リソースは、誤ったアノテーションを引き起こす可能性がある。例えば、隣接する2つ以上の遺伝子…
長年にわたり、機械学習をベースとしたab initio遺伝子探索アプローチは真核生物のゲノムアノテーションパイプラインの中心的な構成要素であり続けており、現在もそうである。これらのアプローチへの依存は、タンパク質相同性とともに遺伝子アノテーションの…
シーケンス技術の進歩により、研究者は全ゲノムのシーケンスを迅速かつ安価に行えるようになった。しかし、ゲノムアセンブリの改善にもかかわらず、ゲノムアノテーション(タンパク質をコードする遺伝子の同定)は、特に真核生物ゲノムでは依然として困難で…
25年以上にわたり、学習ベースの真核生物遺伝子予測は、DNA配列を直接入力する隠れマルコフモデル(HMM)によって駆動されてきた。最近、HolstらはHelixerを用いて、深層学習とHMMポストプロセッサーを組み合わせることでab initio真核生物遺伝子予測の精度…
ProTrekは、配列、構造、自然言語機能(SSF)をシームレスに融合し、先進的なトライモーダル言語モデルにすることで、タンパク質探索を再定義する。対照学習により、ProTrekはタンパク質データと人間の理解とのギャップを埋め、9つのSSFペアワイズモダリティの…
ゲノムのシーケンシングがますます盛んになるにつれ、得られたアセンブリーのアノテーションの必要性が高まっている。構造的・機能的アノテーションは、正しい遺伝子配列を見つけること、RNAなどの他の要素にアノテーションを付けること、それらのデータをデ…
遺伝子構造アノテーションはゲノム配列から生物学的知識を得るための重要なステップであり、現在でもゲノミクスプロジェクトにおいてチャレンジングな課題である。現在のde novo隠れマルコフモデルは、生物学的複雑性をモデル化する能力に限界があり、一方、…
ゲノムアノテーションにおけるタンパク質コード配列の正確性を評価することは困難な問題であり、広く適用できる解決策がない。この原稿では、タンパク質コード遺伝子アノテーションの品質評価を支援するために開発された新しいソフトウェアツール、PSAURON(…
2024/09/06 追記 ゲノム配列決定は生物学者にとって日常的な作業となったが、遺伝子構造アノテーションの課題は依然として残っており、正確なゲノム・遺伝子研究を妨げている。SynGAPは、遺伝子のシンテニー情報を利用して、ゲノムの遺伝子構造アノテーショ…
レポジトリより トランスポーザブル・エレメント(TE)の発見とアノテーションのために多くのツールが開発されている。しかし、高品質なTEコンセンサスライブラリーの構築には、依然としてTEを手作業でキュレーションする必要があり、それには時間がかかり、…
2024/03/5 更新 2024/04/9 追記 2025/05/08 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速…
公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…
マニュアルより AEGeAn Toolkitは、全ゲノム遺伝子構造アノテーションを管理・解析するツールを構築するための、いくつかの異なるが関連した取り組みとして始まった。AEGeAnはこれらの取り組みを一つのライブラリにまとめ、実行可能なプログラムだけでなく、…
多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…
原核生物および真核生物において、上流のオープンリーディングフレーム(uORF、いわゆるリーダーペプチドをコードすることが多い)は、下流のメインORF(mORF)の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…
2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…
2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報(特徴や属性)をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…
非モデル生物のアノテーションは未解決の問題であり、特に非翻訳領域(UTR)の検出が重要である。UTRの正確なアノテーションはトランスクリプトーム解析において各遺伝子の発現を正確に把握するために非常に重要であるが、アノテーションパイプラインではほ…
2008年の論文 移植可能で容易に設定可能なゲノムアノテーションパイプラインであるMAKERを開発した。MAKERの目的は、研究者が独立して真核生物ゲノムのアノテーションを行い、ゲノムデータベースを作成することである。MAKERはリピートを識別し、ESTやタンパ…
2023/02/15 追記 EVidenceModeler (EVM) は、真核生物の遺伝子構造を自動アノテーションするツールであり、真核生物の遺伝子構造を、利用可能なすべての証拠の重み付きコンセンサスとして報告するものである。EVMは、Program to Assemble Spliced Alignments…
明けましておめでとうございます。今年もよろしくお願いいたします。 今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…
2023/01/01 誤字修正 タンパク質をコードする遺伝子の予測は、新たにシークエンシングされアセンブルされたゲノムのアノテーションにおいて重要なステップである。AUGUSTUSは真核生物の遺伝子予測のための最も正確なツールの一つである。ここでは、AUGUSTUS…
2022/12/27,28 追記 ハイブリッドシーケンステクノロジーの進歩により、ハイブリッドシーケンス・トランスクリプトミクスを用いてしばしばアノテーションされるゲノムアセンブリがますます拡大し、ゲノムの特性解析が向上し、さまざまな生物における新規遺伝…
1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…
利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解…
2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記、06/10 誤字修正 2025/02/14 3.8.2に変更, 8/13 誤字修正 ゲノムデータやメタゲノムデータの品質を…
ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…
LTRレトロトランスポゾンは、2つの類似したロングターミナルリピート(LTR)を含む可動性遺伝因子の一種である。現在、LTRレトロトランスポゾンは、主に従来の相同性検索の手法で真核生物のゲノムにアノテーションされている。そのため、既知の因子のアノテ…
2021 9/1 論文追記 2022/12/27 追記 真核生物の遺伝子アノテーションは、蓄積された転写産物のデータを緻密に解析する必要があり、簡単な作業ではない。真核生物の遺伝子アノテーションには、重複する遺伝子を含むゲノムの転写活性領域、多数の転写産物を産…
2021/11/26 追記 シーケンス技術とアセンブリアルゴリズムは成熟し、大規模で反復性のあるゲノムでも高品質なde novoアセンブリが可能になってきた。現在のアセンブリは、トランスポーザブルエレメント(TE)をトラバースし、TEのアノテーションを可能にして…