macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

効率的なエビデンスベースのゲノムアノテーションを行う EviAnn

 

 長年にわたり、機械学習をベースとしたab initio遺伝子探索アプローチは真核生物のゲノムアノテーションパイプラインの中心的な構成要素であり続けており、現在もそうである。これらのアプローチへの依存は、タンパク質相同性とともに遺伝子アノテーションの主要な証拠となる遺伝子発現データの高コストで低利用可能性によって支えられてきた。しかし、現代のシーケンス技術の革新は、豊富な遺伝子発現データの取得に革命をもたらし、このクラスの証拠により大きく依存できるようになった。遺伝子発現データに加えて、十分にアノテーションされた多数のゲノムに見られるタンパク質も、遺伝子アノテーションのための貴重なリソースである。既存のアノテーションパッケージはこれらのデータソースを十分に活用していないことが多いため、エビデンスに基づいた真核生物遺伝子アノテーションシステムであるEviAnn(Evidence-based Annotation)を開発することになった。EviAnnはデータ駆動型のアプローチをとっており、純粋にab initioな遺伝子探索技術からではなく、転写産物のアラインメントやタンパク質配列の相同性から遺伝子のエクソン-イントロン構造を構築する。同じ入力データが与えられた場合、EviAnnはBRAKER3、MAKER2、FINDERを含む現在の最先端パッケージよりも常に優れており、コンピュータの使用時間も大幅に短縮されている。哺乳類ゲノムのアノテーションは、マルチコアサーバー1台で1時間以内に完了する。EviAnnはhttps://github.com/alekseyzimin/EviAnn_releaseオープンソースライセンスの下で自由に利用できる。

 

 

インストール

リリースから2.0.2を入手した。

依存

EviAnn requires the following external dependencies to be installed and available on the system $PATH:

minimap2: https://github.com/lh3/minimap2
HISAT2: https://github.com/DaehwanKimLab/hisat2
Here is the list of the dependencies included with the EviAnn package:

StringTie version 2.2.1 -- static executable
gffread version 0.12.7 -- static executable
gffread version 0.12.6 -- static executable
blastp version 2.8.1+ -- static executable
tblastn version 2.8.1+ -- static executable
makeblastdb version 2.8.1+ -- static executable
exonerate version 2.4.0 -- static executable
TransDecoder version 5.7.1
samtools version 1.15.1 -- compiles on install
ufasta version 1.0 -- compiles on install
miniprot v0.15-r270 -- compiles on install

Github

tar xvzf EviAnn-2.0.2.tar.gz
cd EviAnn-2.0.2/
./install.sh
export PATH=${PWD}:$PATH

> ./eviann.sh 

Usage: eviann.sh [options]

Options:

 -t INT           number of threads, default: 1

 -g FILE          MANDATORY:genome fasta file default: none

 -r FILE          file containing list of filenames of reads from transcriptome sequencing experiments, default: none

 

  FORMAT OF THIS FILE:

  Each line in the file must refer to sequencing data from a single experiment.

  Please combine runs so that one file/pair/triplet of files contains a single sample.  

  The lines are in the following format:

 

 /path/filename /path/filename /path/filename tag

  or

 /path/filename /path/filename tag

  or

 /path/filename tag

 

  Fields are space-separated, no leading space. "tag" indicates type of data referred to in the preceding fields.  Possible values are:

 

  fastq -- indicates the data is Illumina RNA-seq in fastq format, expects one or a pair of /path/filename.fastq before the tag

  fasta -- indicates the data is Illumina RNA-seq in fasta format, expects one or a pair of /path/filename.fasta before the tag

  bam -- indicates the data is aligned Illumina RNA-seq reads, expects one /path/filename.bam before the tag

  bam_isoseq -- indicates the data is aligned PacBio Iso-seq reads, expects one /path/filename.bam before the tag

  isoseq -- indicates the data is PacBio Iso-seq reads in fasta or fastq format, expects one /path/filename.(fasta or fastq) before the tag

  mix -- indicates the data is from the sample sequenced with both Illumina RNA-seq provided in fastq format and long reads (Iso-seq or Oxford Nanopore) in fasta/fastq format, expects three /path/filename before the tag

  bam_mix -- indicates the data is from the same sample sequenced with both Illumina RNA-seq provided in bam format and long reads (Iso-seq or Oxford Nanopore) in bam format, expects two /path/filename.bam before the tag

 

  Absense of a tag assumes fastq tag and expects one or a pair of /path/filename.fastq on the line.

 

 -e FILE               fasta file with assembled transcripts from related species, default: none

 -p FILE               fasta file with protein sequences from (preferrably multiple) related species, uniprot proteins are used of this file is not provided, default: none

 -s FILE               fasta file with UniProt-SwissProt proteins to use in functional annotation or if proteins from close relatives are not available.  EviAnn uses 

                         a recent version of this protein database internally. To use the most up-to-date version, supply it with this switch. The database is available at:

                         https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz

 -m INT                max intron size, default: 500000

 --partial             include transcripts with partial (mising start or stop codon) CDS in the output

 --lncrnamintpm FLOAT  minimum TPM to include non-coding transcript into the annotation as lncRNA, default: 3.0

 --liftover            liftover mode, optimizes internal parameters for annotation liftover; also useful when supplying proteins from a single species, default: not set

 -f|--functional       perform functional annotation, default: not set

 --extra FILE          extra features to add from an external GFF file.  Feautures MUST have gene records.  Any features that overlap with existing annotations will be ignored

 --debug               keep intermediate output files, default: not set

 --verbose             verbose run, default: not set

 --version             report version and exit.

 --help                display this message and exit.

 

 IMPORTANT!!! -r or -e MUST be supplied.

 

実行方法

ゲノムとRNA seqのfastq(あるいはbam)、近縁な種の転写産物fastaを指定する(レポジトリでは必須になってないが、指定なしだと停止する)。RNA seqのfastqの場所をフルパスで記載したリストファイルとして指定する(例:/path/to/R1.fq.gz<space> /path/to/R2.fg.gz)。

eviann.sh -g genome.fna -t 20 -r fastq_list -e related_species_transcripts.fasta
  • -g     MANDATORY: genome fasta file default: none
  • -r      file containing list of filenames of reads from transcriptome sequencing experiments, default: none
  • -e     fasta file with assembled transcripts from related species, default: none
  • -t      number of threads, default: 1

近縁な種のタンパク質情報を指定していない場合、初回ランではswiss-protがダウンロードされる。

ジョブが終わるまである程度時間がかかる *1。

 

出力例

 

その他

  • EviAnnはすべての中間ステップの進捗を保存する。EviAnnの実行が何らかの理由で停止した場合(コンピュータの再起動やディスク容量不足)、同じコマンドを再実行すれば、EviAnnは最後に成功したステージから続行する。
  • 出力ファイルには、GFF3形式のアノテーション、タンパク質(アミノ酸)の配列、および転写産物が含まれる。入力ゲノムファイル名が中間/出力ファイルの<PREFIX>として使用される。

引用

Efficient evidence-based genome annotation with EviAnn

Aleksey V. Zimin, Daniela Puiu, Mihaela Pertea, James A. Yorke, Steven L. Salzberg

bioRxiv, Posted May 12, 2025.

 

*1

小さなゲノムとRNA seq1つ、近縁種transcriptome1つで4時間ほどかかった(5995WX, 20スレッド指定)。

 

関連