macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Helixerと比較して新規アノテーションのミスを探す AnnotationSplitter

 

 非モデル生物におけるゲノム解析では、タンパク質コード遺伝子の正確なアノテーションが極めて重要である。しかし、限られたRNA-Seqデータと不完全なタンパク質リソースは、誤ったアノテーションを引き起こす可能性がある。例えば、隣接する2つ以上の遺伝子が誤って単一のモデルに融合されるキメラ遺伝子のミスアノテーションなどが挙げられる。こうした誤りはアノテーションの慣性により持続することが多く、データ共有や再解析を通じて誤りが伝播・増幅され、誤ったモデルが正しいモデルよりも優先される事例を引き起こす。これにより、遺伝子発現研究や比較ゲノム学など、ほぼ全ての下流ゲノム解析が複雑化する。本著者らは無脊椎動物脊椎動物、植物にまたがる30の最近アノテーションされたゲノム全体でキメラミスアノテーションを調査し、605件の確認事例を特定した。これらの誤りの大半は無脊椎動物と植物で発生していた。構造予測とスプライシング評価を用いて、機械学習アノテーションツール(Helixerなど)を活用することでミスアノテーションを特定できる手法を提供できることを実証した。本研究は、ゲノムデータセットにおけるキメラ型ミスアノテーションの蔓延を明らかにするとともに、データベースに存在するミスアノテーションを伴う高度に変異する遺伝子ファミリーについて、Helixerなどの機械学習ツールを用いて遺伝子モデルを精緻化する可能性を示した。こうしたアノテーションエラーに対処することで、ゲノムデータの信頼性を向上させ、非モデル生物の深い理解を促進することができる。

 

インストール

依存

  • Python 3.8 or later
  • Required Python libraries (install via requirements.txt)
  • MMseqs2

Github

 

 

mamba create -n AnnotationSplitter python=3.9 -y
conda activate AnnotationSplitter
#mmseqs2 (link)
mamba install -c conda-forge -c bioconda mmseqs2
mamba install -c bioconda gffcompare
 
#本体
git clone https://github.com/Andy-B-123/AnnotationSplitter.git
cd AnnotationSplitter/
pip install -r requirements.txt

> python src/main.py -h

> python src/main.py -h

Starting process

 

usage: main.py [-h] --mmseqs_db MMSEQS_DB [--mmseqs_path MMSEQS_PATH] [--mmseqs_threads MMSEQS_THREADS] reference_gff helixer_gff reference_fasta output_directory

 

GeneSplitter comparing reference annotations with Helixer generated annotations.

 

positional arguments:

  reference_gff         Path to the Reference GFF file

  helixer_gff           Path to the Helixer GFF file

  reference_fasta       Path to the Reference FASTA file

  output_directory      Directory to store the output files

 

options:

  -h, --help            show this help message and exit

  --mmseqs_db MMSEQS_DB

                        Path to the MMseqs2 SwissProt database

  --mmseqs_path MMSEQS_PATH

                        Path to the MMseqs2 executable, defaults to being present in the system path if not provided.

  --mmseqs_threads MMSEQS_THREADS

                        Threads to use for mmseqs.

 

 

実行方法

ランするにはSwiss-Prot DBが必要。

mkdir tmp
mmseqs databases UniProtKB/Swiss-Prot SwissProt_database tmp

 

リファレンスのGFF、HelixerのGFF、とリファレンスのfasta、出力ディレクトリ+(option)の順で指定する。option指定だがmmseq DBは必須となっている。

python src/main.py reference.gff helixer.gff reference.fasta outdir \
--mmseqs_db SwissProt_database --mmseqs_threads 16

指定するGFFとゲノムの名前が不一致だとエラーになるので注意する。NCBIに提出されているゲノムデータであっても、GenBank(研究者オリジナル版)だとGFFとゲノム配列のキーが一致しないものが見つかったりする。

 

出力例

 

PotentialChimeras.RefSeqs.Summary.csvとPotentialChimeras.Helixer.Summary.csv: リファレンスタンパク質における潜在的キメラのサマリーとHelixerタンパク質における潜在キメラの要約

 

PotentialChimeras.Helixer.csvとPotentialChimeras.RefSeqs.csv

 

reference_proteins.potential_chimeras.fastaとhelixer_proteins.potential_chimeras.fasta: 参照タンパク質における潜在キメラのFASTA配列とHelixerタンパク質における潜在キメラのFASTA配列

 

cluster_results.plot.svg

その他、アノテーション比較をまとめた gffcompare 出力などが出力される。

 

論文より

  • 信頼性の高い遺伝子モデルを作成するには、理想的には複数の時間点や組織タイプからのRNAシーケンスやプロテオーム情報など、広範なデータを利用する必要がある。これら複数の証拠を評価することで、遺伝子の構造に関する情報をゲノム上のエクソンやコード配列の座標としてまとめることができる[2]。しかし非モデル生物では、こうしたデータがしばしば限られているため、近縁生物からの証拠に頼らざるを得ない場合がある。その結果、ゲノムアノテーションはしばしば外挿データに依存することになり、サポートデータなしで最終アノテーションのみが存在する場合には、検出や修正が困難なエラーが導入されやすくなる。
  • アノテーションの誤りの一つに「キメラ(chimeric)」遺伝子の誤アノテーションがある。これは、隣接する二つ以上の異なる遺伝子が誤って一つの遺伝子として統合されてしまうものである。キメラアノテーションは、特にスプライシングパターンが複雑な真核生物ゲノムに多く見られる。これは、ゲノムアノテーションプログラムやパイプラインが、どのゲノム領域が単一遺伝子のコード配列に寄与するかを正確に識別することに困難を伴うためである[3,4]。こうしてデータベースに登録された長く誤ったキメラ遺伝子は、新しいゲノムをアノテーションする際の証拠として再利用され、誤アノテーションが持続・拡大してしまう。キメラ遺伝子は大きいため、BLASTのような局所アライメントで高いスコアを得やすく、小さく正しいアライメントよりも保持されやすい。
  • 初期段階で誤アノテーションが特定されなければ、ゲノムデータベースに誤アノテーションが伝播し、誤った遺伝子モデルが強化される。この課題は、ロングリードシーケンシングの進展により、研究者による手動キュレーションの時間は減少している一方で、非モデル生物で多くの高品質ゲノムを生成できるようになることで、拡大している。複数のゲノムバージョンが同一種で利用可能になる中で、ゲノムアノテーションのミスアノテーションを評価・修正するためのツールの必要性が高まっている。
  • 本研究では、非モデル真核生物におけるキメラミスアノテーションの問題に焦点を当てている。本研究では、Helixerを非モデル生物ゲノムのサンプルに適用し、信頼できるタンパク質データセットを用いてHelixerのアノテーションを検証し、誤アノテーションを特定する簡単な検証手法を提供する。この結果、多くのキメラミスアノテーションは、未キュレーションのデータセットから伝播したエラーに起因することが明らかとなり、積極的な識別と修正の重要性が示された。

 

コメント

論文では、キメラの可能性がある遺伝子モデルについて、いくつかの方法で検証していますが、その中でAF3を使って遺伝子が人工的に結合されている場合、空間に空きができ(それぞれの本来独立しているタンパク質部分が別々に安定な構造を取るため、
)、それをPredicted vs. Aligned Error (PAE) plot (各残基ペア間の「相対位置の予測誤差)で2つのブロック (図3Bのヒートマップの塊2つ)が形成され、それによって明らかにキメラになっているような遺伝子モデルは特定できるとしています。読んでみてください。

引用

Chimeric mis-annotations of genes remain pervasive in eukaryotic non-model organisms

Andreas Bachler, Thomas K. Walsh, Rahul V. Rane & Gunjan Pandey 

BMC Genomics volume 26, Article number: 630 (2025) 

 

関連