2024-09-04

（主に動植物）遺伝子ノテーションの品質向上のためのシンテニーベースのツールキット SynGAP

2024/09/06 追記

ゲノム配列決定は生物学者にとって日常的な作業となったが、遺伝子構造アノテーションの課題は依然として残っており、正確なゲノム・遺伝子研究を妨げている。SynGAPは、遺伝子のシンテニー情報を利用して、ゲノムの遺伝子構造アノテーションを正確かつ自動的に研磨するバイオインフォマティクスツールキットである。SynGAPは、遺伝子構造アノテーションの質の向上と、生物種間の統合的な遺伝子シンテニーのプロファイリングにおいて卓越した機能を提供する。さらに、発現変動インデックスは、系統的に近縁な種で観察される異なる形質の発現に関与する候補遺伝子を探索するための比較トランスクリプトーム解析用に設計されている。

シーケンシング技術と計算技術の進歩は、コストの低下と相まって、研究者が日常的にゲノムの塩基配列を決定し、目的とする高品質のアセンブリを得ることを可能にした。しかし、ゲノムアノテーションは、通常、反復DNA配列のマスキング、遺伝子構造アノテーション（GSA）、遺伝子機能アノテーションという3つの主要なステップを伴うが、生物学者にとっては依然として困難な作業であり、中でも遺伝子構造アノテーションは最も重要かつ困難なステップである。遺伝子構造アノテーションとは、ゲノム配列中の遺伝子の位置を決定し、遺伝子のエクソンとイントロンを正確に定義することである。遺伝子の転写が空間的・時間的に依存していることを考えると、GSAは非常に複雑になる可能性がある。一つの遺伝子が、alternative splicingやalternative start and termination siteによって複数の転写産物に転写される可能性がある。正確なGSAはゲノム・遺伝学研究にとって不可欠である。なぜなら、標準以下のGSAは下流の研究に大きな支障をきたし、誤ったバイオインフォマティクス解析や誤った機能ゲノミクス研究につながるからである。現在、遺伝子構造アノテーションのための様々なパイプラインやワークフローが開発されており、通常、第一原理または相同性ベースの予測やトランスクリプトーム支援アノテーションと統合されている。このようなパイプラインの代表例としては、AUGUSTUS、miniprot、MAKERなどがある。これらのパイプラインのどれもが優れているわけではなく、その結果、異なるゲノムアセンブリ間でGSAの品質に大きなばらつきが生じている。これは、第3世代のロングリードシーケンス技術の利用によるゲノムアセンブリ品質の大幅な向上に追いついていないことに起因する。ApolloやIGV-GSAmanなどのツールキットを用いたGSAの手動補正は、GSAを改善する効果的なアプローチと思われるが、包括的なトランスクリプトームやプロテオームデータに依存し、特にパンゲノムプロジェクトに取り組む場合には時間がかかる。

進化の過程で、染色体上の遺伝子の順序は、共通の祖先種から派生した近縁種で維持される。gene synteny として知られる、異なる種の染色体上の遺伝子の保存された共局在は、染色体の種間進化関係と、ゲノムのシャッフリングイベントの量や位置のような種内ゲノムの変化の両方に対する洞察を提供する。一般に、2つの生物種が近縁であればあるほど、その遺伝子のシンテニーの程度は高くなる。そのため、遺伝子シンテニーはしばしば比較ゲノミクスやトランスクリプトミクス解析に用いられ、相同ゲノムブロックを同定し、種間のオルソログ遺伝子をマッピングする。

シンテニー関係はオルソログ遺伝子の保存的配置を反映するので、異なる生物種間で整列したゲノム領域の遺伝子の比較解析に非常に適している。MCScanX、JCVI、WGDIのようなツールを用いれば、シンテニー解析により、シンテニックゲノム領域内のオルソログ遺伝子ペアや対になっていない遺伝子を容易に同定することができる。これらの対になっていない遺伝子は、遺伝子の欠失や挿入のようなゲノム配列の変化に起因する場合もあれば、単に遺伝子構造のアノテーションが不完全または不正確であることに起因する場合もある。後者の場合、シンテニー解析は近縁種の遺伝子構造アノテーションの相互修正と補完に利用できる。このシナリオに基づき、遺伝子のシンテニーに基づいて近縁種の遺伝子構造アノテーションの欠落を補い、不正確な遺伝子モデルを修正するツールキットSynGAP（Synteny-based Gene Structure Annotation Polisher）を開発した。また、シンテニーに基づくオルソログ遺伝子ペアの同定を改善することで、比較トランスクリプトーム解析へのSynGAPの応用を実証した。

インストール
Github

#conda(bioconda)
mamba install -c conda-forge -c bioconda syngap

#docker(hub)
docker pull yanyew/syngap:1.2.5
docker run -it yanyew/syngap:1.2.5
conda activate syngap

> syngap -h

usage: syngap [-h] {initdb,master,dual,triple,custom,genepair,evi,eviplot} ...

Synteny-based Gene structure Annotation Polisher (SynGAP) https://github.com/yanyew/SynGAP

positional arguments:

{initdb,master,dual,triple,custom,genepair,evi,eviplot}

initdb Import the pre-downloaded compressed file of masterdb for SynGAP master

master Polishment module for one species with masterdb provided by SynGAP

dual Polishment module for two species

triple Polishment module for three species

custom Polishment module for two species with given synteny block

genepair Pair genes from two species

evi Calculate the EVI for each gene pair between two species

eviplot Plot the given EVI file and highlight specific gene pairs

options:

-h, --help show this help message and exit

> syngap dual -h

usage: syngap dual [-h] --sp1fa SP1FA --sp1gff SP1GFF --sp2fa SP2FA --sp2gff SP2GFF [--sp1 SP1] [--sp2 SP2] [--annoType1 ANNOTYPE1] [--annoKey1 ANNOKEY1] [--annoparentKey1 ANNOPARENTKEY1] [--annoType2 ANNOTYPE2] [--annoKey2 ANNOKEY2] [--annoparentKey2 ANNOPARENTKEY2] [--datatype DATATYPE]

[--cscore CSCORE] [--threads THREADS] [--process PROCESS] [--evalue EVALUE] [--rank RANK] [--coverage COVERAGE] [--kmer1 KMER1] [--kmer2 KMER2] [--outs OUTS] [--intron INTRON]

options:

-h, --help show this help message and exit

--sp1fa SP1FA The genome squence file (.fasta format) for species1 [required]

--sp1gff SP1GFF The genome annotation file (.gff format) for species1 [required]

--sp2fa SP2FA The genome squence file (.fasta format) for species2 [required]

--sp2gff SP2GFF The genome annotation file (.gff format) for species2 [required]

--sp1 SP1 The short name for species1, e.g. Ath [default: sp1]

--sp2 SP2 The short name for species2, e.g. Ath [default: sp2]

--annoType1 ANNOTYPE1

Feature type to extract for species1 [default: mRNA]

--annoKey1 ANNOKEY1 Key in the attributes to extract for species1 [default: ID]

--annoparentKey1 ANNOPARENTKEY1

Parent gene key to group with --primary_only in jcvi [default: Parent]

--annoType2 ANNOTYPE2

Feature type to extract for species2 [default: mRNA]

--annoKey2 ANNOKEY2 Key in the attributes to extract for species2 [default: ID]

--annoparentKey2 ANNOPARENTKEY2

Parent gene key to group with --primary_only in jcvi [default: Parent]

--datatype DATATYPE The type of squences for jcvi, nucl|prot [default: nucl]

--cscore CSCORE C-score cutoff for jcvi [default: 0.7]

--threads THREADS Number of threads to use [default: 8]

--process PROCESS Process for gapanno, genblastg|miniprot [default: genblastg]

--evalue EVALUE Threshold for evalue in genBlast [default: 1e-5]

--rank RANK The number of ranks in genBlast output [default: 5]

--coverage COVERAGE Minimum percentage of query gene coverage of the HSP group in the genBlast output [default: 0.5]

--kmer1 KMER1 K-mer size for Indexing in miniprot [default: 5]

--kmer2 KMER2 K-mer size for the second round of chaining in miniprot [default: 4]

--outs OUTS Threshold of Score for miniprot output [default: 0.95]

--intron INTRON Max intron size allowed for miniprot output [default: 40k]

> syngap initdb -h

# syngap initdb -h

usage: syngap initdb [-h] --sp SP --file FILE

options:

-h, --help show this help message and exit

--sp SP The species type of masterdb to be imported, plant|animal [required]

--file FILE The compressed file of masterdb (.tar.gz) to be imported [required]

> syngap master -h

# syngap master -h

usage: syngap master [-h] --sp SP --sp1fa SP1FA --sp1gff SP1GFF [--sp1 SP1] [--annoType1 ANNOTYPE1] [--annoKey1 ANNOKEY1] [--annoparentKey1 ANNOPARENTKEY1] [--datatype DATATYPE] [--cscore CSCORE] [--threads THREADS] [--process PROCESS] [--evalue EVALUE] [--rank RANK] [--coverage COVERAGE]

[--kmer1 KMER1] [--kmer2 KMER2] [--outs OUTS] [--intron INTRON]

options:

-h, --help show this help message and exit

--sp SP The species type of the polished object, plant|animal [required]