真菌の遺伝子予測を行う CodingQuarry - macでインフォマティクス

　全ゲノムシークエンスは、多くの生物の遺伝子コンテンツの調査を可能にし、遺伝子発現、プロテオミクス、エピジェネティクスのさらなる研究の基礎を形成している。新規ゲノムを構築した後、遺伝子のアノテーションを行うことが、生物の遺伝子内容を解析するための最初のステップとなることが多い。遺伝子のエキソン構造の正確なアノテーションは、その後の機能解析や比較解析を成功させるために非常に重要である。

　不正確な遺伝子アノテーションによって引き起こされる可能性のある問題は数多くあり、生物のライフスタイルや生態系の誤った評価につながる可能性がある。種/隔離体間でorthologousな遺伝子や保存された機能ドメインを比較する比較ゲノムでは、そのような遺伝子/ドメインの推定数が完全でないアノテーションによって歪められることがある（Haneら[1]）。N末端の短いシグナルペプチドによって決定され得る細胞外分泌の予測は、遺伝子の開始コドンが誤ってアノテーションされている場合、分泌されたタンパク質を見逃す可能性がある。タンパク質の翻訳開始を誤ってアノテーションすると、シグナルペプチドが切断されるか、アノテーション内に埋もれてしまう可能性がある。一見温和なアノテーションミスに見えるが下流の研究には有害な影響を及ぼす可能性がある。さらに、新規種の翻訳されたタンパク質配列は、NCBI [2] や Uniprot [3] などのデータベースに投稿されることが多い。これらのデータベースのエントリは、近縁種や分離株のアノテーションをサポートするために使用されるのが一般的であり、パイオニアアノテーションに存在するエラーが繰り返される可能性があることを意味している。このような誤った仮定に基づく新しいアノテーションがデータベースに追加されると、エラーが伝播するだけでなく、正しくないタンパク質配列に対する相同性の証拠が強化されていると認識されていく。

　近年、in silicoで予測された遺伝子アノテーションをRNA-seq由来の転写産物とリードアラインメントで修正することで、ゲノムアノテーションの大幅な改善とアノテーションされた遺伝子構造の修正が可能になった[4-6]。ショートリードおよび／またはアセンブルされた転写産物のアラインメントは、通常、既存の遺伝子アノテーションや予測におけるイントロン・エキソン境界の座標を修正するために使用される[7]。遺伝子予測への最初の応用[11]以来、generalised hidden Markov models (GHMM)はゲノムアノテーションにおいて重要な役割を果たしてきた。様々なGHMM遺伝子予測器[12-15]がアノテーションパイプライン[16-18]に組み込まれ続けており、その中にはRNA-seqデータを利用できるものもある。例えば、AUGUSTUS [9,10,14]は、ユーザーがRNA-seqのリード/トランスクリプトアラインメントからヒントファイルを生成し、予測精度を向上させるために使用することを可能にしている。さらに最近では、GeneMark-ES [15]の新バージョンであるGeneMark-ET [8]では、RNA-seqデータを自動遺伝子モデル学習に組み込むことができるようになった。これらの遺伝子検出器はいずれも真核生物の幅広いゲノムに適用可能である。また、利用可能な遺伝子予測ソフトウェアとRNA-seqデータを利用してアノテーションを生成するパイプラインも数多く開発されている。そのようなパイプラインの例としては、Maker [16,19]、EVidenceModeler [7]、JAMg [20]、SnowyOwl [18]、昆虫ゲノムアノテーションパイプラインOMIGA [21]などがある。これらのようなパイプラインの継続的な開発は、GHMM遺伝子予測器のようなコンポーネントソフトウェアの利用可能性と開発に依存している。

　真菌ゲノムは、農業[22-24]、医療[25,26]、バイオマス変換[27,28]、食品/飲料生産[29,30]などの分野に応用されている。このような幅広い産業分野への応用と、ゲノムが配列決定された新種の真菌の数が増加し続けていることは、真菌遺伝子アノテーションの重要性を強調している。真菌のゲノムは、短いイントロンを持つ遺伝子が密集しているという点で、高等真核生物とは異なる[31,32]。また、他の真核生物に比べてalternateスプライシングが少なく、保持されたイントロンに由来するmRNAアイソフォームの割合が高いという特徴がある。ゲノムアノテーションを高品質に作成するためには、手動アノテーションが最も信頼性の高い方法であると考えられているが、これは時間がかかり、ゲノム研究のボトルネックになる可能性がある[34]。その結果、真菌ゲノムアノテーションは、一般的にab initio予測、スプライスされたEST/転写産物のアラインメント、およびタンパク質の相同性から導かれることになる[34]。多くの真菌については、近縁種が配列決定されていないか、またはそのゲノムが詳細にアノテーションされていない。これは、タンパク質相同性アノテーションに使用する相同タンパク質のセットが少ないか、信頼性が低いことを意味する。このような場合、遺伝子予測はEST/転写産物のアラインメントやab initio予測に頼ることになる。

　現在利用可能な遺伝子予測ソフトウェアやパイプラインは、一般的に幅広い真核生物への適用を目的としており、真菌に特化したものは比較的少ない。GipsyGene [35]は真菌用に開発されたGHMM遺伝子予測器であり、真菌のイントロンを正確にモデル化することに特に注意が払われている。自己学習型GHMMであるGeneMark-ES [15]のバージョンも真菌用に設計されたイントロンモデルを使用している。しかし、これらはいずれもRNA-seqデータを組み込んでいない。SnowyOwl [18]は、RNA-seqデータと相同性情報を用いて真菌ゲノムのアノテーションを行うために設計された、最近開発されたパイプラインである。SnowyOwlは、真菌用に設計されているが、AUGUSTUS [9,10,14]によるGHMM予測から選択している。

　本研究では、遺伝子予測ツールCodingQuarryを紹介する。このツールは、GHMMの学習と予測の両方において、アセンブルまたはアラインメントされたRNA-seq転写物を使用して、タンパク質をコードする遺伝子の配列予測を行うように設計されている。CodingQuarryは、トランスクリプトとゲノム配列の両方から直接作られた遺伝子予測を組み合わせて使用することにより、他の遺伝子予測器とは異なる。

　CodingQuarryを真菌遺伝子の予測に合わせて、生のリードアラインメントではなく、アセンブルされたアラインメントされた転写物を使用するという選択は、真菌ゲノムと高等真核生物のそれとの間のいくつかの重要な違いに関連している。第一に、真菌は高等真核生物に比べてオルタナティブスプライシングが著しく少ない。その結果、転写産物のアセンブリがより簡単になり、正しくアセンブリされた全長転写産物の割合が高くなる[36]。第二に、真菌は高等真核生物に比べてイントロンが小さい[32]。最近の研究では、短いイントロンは長いイントロンよりも高い成功率で再構築されることが示されている[37]。このようなトランスクリプトアッセンブリの利点により、アセンブリされたトランスクリプト配列から直接コーディング配列アノテーションを生成することが可能になったが、これは高等真核生物ではエラーが発生しやすいプロセスである。

　菌類で観察される高い遺伝子密度の主な結果として、隣接する転写物の非翻訳領域（UTR）がゲノムDNA上での位置において重なる割合が高いことが挙げられる。オーバーラップは、同じ鎖上の隣接遺伝子の３′と５′のＵＴＲの間、または５′と５′の間、または反対側の鎖上の隣接遺伝子の３′と３′のＵＴＲの間であり得る。後者の例からのオーバーラップ、特に３′〜３′の場合のオーバーラップは、センス-アンチセンス（Ｓ-ＡＳ）オーバーラップと呼ばれる。S-ASオーバーラップは、多くの種ではまれに起こることが観察されているが、真菌では広く見られる[38,39]。本質的にこれは、遺伝子密度の高い真菌ゲノムにおいて、隣接する遺伝子に属するマッピングされたRNA-seqリードが、2つ以上の遺伝子座にまたがるカバレッジ領域をサポートしている可能性があることを意味している。これはstranded RNA-seqデータを使用することでS-ASオーバーラップを識別できるが、「unstranded」のRNA-seqケミストリーを使用した場合にはより深刻な問題となる。CodingQuarryは、strandedまたはunstranded RNA-seqデータのいずれかに由来するアセンブリされた、アラインメントされた転写物で動作するように設計されており、特にこれらの転写物アセンブリエラがコーディング配列アノテーションエラーまたは省略された遺伝子座に変換されないように、マージされた転写物の問題に対処するために設計されている。

　CodingQuarryのパフォーマンスを実証する目的で、非常に信頼性の高い配列とアノテーションリソースを持っている2つの例示的な真菌種を選択した。Saccharomyces cerevisiaeとSchizosaccharomyces pombeである。S. cerevisiaeは、一般にパン酵母として知られており、長い間モデルとなる生物であり、ワイン醸造、製パン、醸造産業において重要な存在である。一般に分裂酵母として知られるSc. pombeもモデル生物である。これら2種は、1億年前までに共通の祖先から分岐したと推定されており[40,41]、遠縁の真菌亜科の代表的な種である。本研究では、これらの真菌の高品質なアノテーションを用いて、CodingQuarryの感度と特異性をベンチマークし、他の遺伝子予測因子と比較する。

インストール

condaを使ってpython3.7の仮想環境に導入した。

依存

SourceForge

#bioconda (link)
conda create -n codingquarry python=3.7 -y
conda activate codingquarry
conda install -c bioconda -y codingquarry

> CodingQuarry

$ CodingQuarry

CodingQuarry v. 2.0

Author: Alison Testa

ESSENTIAL:

-f followed by file name of genome sequence

And ONE of:

-t gff3 file of aligned transcripts (recommended)

-s species name, providing pre-trained parameters exist

-a gff3 of high confidence genes that can be used for training

OPTIONAL:

-p number of threads (default is 1)

-d specify this when using un-stranded RNA-seq. By default,

CodingQuarry expects stranded RNA-seq

-i stop after stage 1 (see manual)

-e gff3 file of aligned EST data

-h do not predict genes in soft-masked regions (that is, hard-mask these regions)

Recommended run for annotating a genome using transcripts derived from

stranded RNA-seq:

CodingQuarry -f myGenome.fa -t myTranscript.gff3 -p 8

Recommended run for annotating a genome using transcripts derived from

un-stranded RNA-seq:

CodingQuarry -f myGenome.fa -t myTranscript.gff3 -p 8 -d

A pathogen run-mode of CodingQuarry (CodingQuarry-PM) has recently (v. 2.0) been introduced

to assist in the prediction of effectors in fungal phytopathogen species. See the manual for

details on how to use this run-mode.

IMPORTANT: It is important that you set the

environmental variable "QUARRY_PATH". This should specify the

location of the folder QuarryFiles that came with this program. If you

do not want to set the environmental variable, place the folder

QuarryFiles in your working directory before you run the program.

IMPORTANT: The transcripts must be aligned to the genome and in gff3

format. Gtf format is not supported and is likely to cause

run-time errors - use a gtf to gff3 converter (a python script has

been provided for converting Cufflinks gtfs). To be read properly,

the aligned transcripts must be listed as "exons" in the gff3 file.

The parent ID must be the same for each exon of the aligned

transcript.

An example of a gff3 that can be read:

scaffold_1 EXAMPLE exon 1000 1024 . - . ID=exon:G01:1;Parent=G01;

scaffold_1 EXAMPLE exon 1080 1300 . - . ID=exon:G01:2;Parent=G01;

scaffold_1 EXAMPLE exon 1350 1499 . - . ID=exon:G01:3;Parent=G01;

Annotation files (files containing genes) are read similarly, except

the exons should be labelled as CDS.

The scaffold name is taken from the fasta file between the > and

the first space that follows. This must exactly match the scaffold

name in the gff3. The fasta and gff3 files are not checked to see

if they conform, incorrect files may produce incorrect output or

run-time fail.

実行方法

ランには-t、-s、-aのうちのいずれかのオプションを指定する必要がある。

#stranded RNA seqのアラインファイル由来GFF3を使う
CodingQuarry -f genome.fa -t transcript.gff3 -p 8

#unstranded RNA seqのアラインファイル由来GFF3を使う
CodingQuarry -f genome.fa -t transcript.gff3 -p 8 -d

#信頼性の高い遺伝子セット（GFF3）を訓練に使う
CodingQuarry -f genome.fa -a transcript.gff3 -p 8

-t gff3 file of aligned transcripts (recommended)
-s species name, providing pre-trained parameters exist
-a gff3 of high confidence genes that can be used for training
-p number of threads (default is 1)
-d specify this when using un-stranded RNA-seq. By default,
CodingQuarry expects stranded RNA-seq
-i stop after stage 1 (see manual)
-e gff3 file of aligned EST data
-h do not predict genes in soft-masked regions (that is, hard-mask these regions)