macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

原核生物アセンブリのための包括的でスケーラブルなNextflowアノテーションパイプライン mettannotator

 

 近年、原核生物のゲノムアセンブリが急増しており、単離された生物や環境サンプルの両方から得られている。これらのアセンブリには、リファレンスデータベースでは十分に表現されていない新規の生物種が含まれることが多く、よく記述されている分類群と新規の分類群の両方にアノテーションが可能で、大規模に実行できるツールの必要性が生じている。原核生物のゲノムアノテーションのための包括的でスケーラブルなNextflowパイプラインであるmettannotatorを紹介する。このパイプラインは、コーディング領域とノンコーディング領域を特定し、抗菌剤耐性を含むタンパク質機能を予測し、遺伝子クラスターを定義する。このパイプラインは、これらの結果をGFF(General Feature Format)ファイルにまとめ、下流の解析で簡単に利用したり、一般的なゲノムブラウザを使って可視化したりすることができる。ここでは、単離ゲノム、既知および新規のメタゲノムアセンブリゲノムを含む、29の原核生物門の200のゲノムでの動作を示し、他のツールと比較した性能に関する評価指標を示す。

パイプラインはNextflowとPythonで書かれており、オープンソースApache 2.0ライセンスで公開されている。説明とソースコードhttps://github.com/EBI-Metagenomics/mettannotatorにある。パイプラインはWorkflowHub(https://workflowhub.eu/workflows/1069)でも利用できる。

 

インストール

nextflow  version 24.10.4でテストした。

Github

git clone https://github.com/EBI-Metagenomics/mettannotator.git

$ nextflow run mettannotator/main.nf --help

 

 N E X T F L O W   ~  version 24.10.4

 

Launching `mettannotator/main.nf` [cheeky_spence] DSL2 - revision: f2a0e51af6

 

Downloading plugin nf-validation@1.1.4

 

 

------------------------------------------------------

  ebi-metagenomics/mettannotator v1.4.0

------------------------------------------------------

Typical pipeline command:

 

  nextflow run ebi-metagenomics/mettannotator --input assemblies_sheet.csv -profile docker

 

Input/output options

  --input                            [string]  Path to comma-separated file containing information about the assemblies with the prefix to be used and the 

                                               taxid. 

  --outdir                           [string]  The output directory where the results will be saved. You have to use absolute paths to storage on Cloud 

                                               infrastructure. 

  --fast                             [boolean] Run the pipeline in fast mode. In this mode, InterProScan, UniFIRE, and SanntiS won't be executed, saving 

                                               resources and speeding up the pipeline. 

  --bakta                            [boolean] Use Bakta instead of Prokka for CDS annotation. Prokka will still be used for archaeal genomes.

  --email                            [string]  Email address for completion summary.

  --multiqc_title                    [string]  MultiQC report title. Printed as page header, used for filename if not otherwise specified.

 

Reference databases

  --dbs                              [string]  Folder for the tools' reference databases used by the pipeline for downloading. It's important to note that 

                                               mixing the --dbs flag with individual database paths and versions is not allowed; they are mutually 

                                               exclusive. 

  --interproscan_db                  [string]  The InterProScan reference database, ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/

  --interproscan_db_version          [string]  The InterProScan reference database version. [default: 5.62-94.0]

  --interpro_entry_list              [string]  TSV file listing basic InterPro entry information - the accessions, types and names, 

                                               ftp://ftp.ebi.ac.uk/pub/databases/interpro/releases/94.0/entry.list 

  --interpro_entry_list_version      [string]  InterPro entry list version [default: 94]

  --eggnog_db                        [string]  The EggNOG reference database folder, 

                                               https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.12#requirements 

  --eggnog_db_version                [string]  The EggNOG reference database version. [default: 5.0.2]

  --rfam_ncrna_models                [string]  Rfam ncRNA models, ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/genomes-pipeline/ncrna/

  --rfam_ncrna_models_rfam_version   [string]  Rfam release version where the models come from. [default: 14.9]

  --amrfinder_plus_db                [string]  AMRFinderPlus reference database, 

                                               https://ftp.ncbi.nlm.nih.gov/pathogen/Antimicrobial_resistance/AMRFinderPlus/database/. Go to the following 

                                               documentation for the db setup https://github.com/ncbi/amr/wiki/Upgrading#database-updates. 

  --amrfinder_plus_db_version        [string]  The AMRFinderPlus reference database version. [default: 2024-01-31.1]

  --defense_finder_db                [string]  Defense Finder reference models, https://github.com/mdmparis/defense-finder#updating-defensefinder. The 

                                               Microbiome Informatics team provides a pre-indexed version of the models for version 1.2.3 on this ftp location: 

                                               ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/pipelines/tool-dbs/defense-finder/defense-finder-models_1.2.3.tar.gz. 

  --defense_finder_db_version        [string]  The Defense Finder models version. [default: 1.2.3]

  --antismash_db                     [string]  antiSMASH reference database, go to this documentation to do the database setup 

                                               https://docs.antismash.secondarymetabolites.org/install/#installing-the-latest-antismash-release. 

  --antismash_db_version             [string]  The antiSMASH reference database version. [default: 7.1.0]

  --dbcan_db                         [string]  dbCAN indexed reference database, please go to the documentation for the setup 

                                               https://dbcan.readthedocs.io/en/latest/. The Microbiome Informatics team provides a pre-indexed version of the 

                                               database for version 4.0 on this ftp location: 

                                               ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/pipelines/tool-dbs/dbcan/dbcan_4.0.tar.gz 

  --dbcan_db_version                 [string]  The dbCAN reference database version. [default: 4.1.3_V12]

  --bakta_db                         [string]  Bakta reference database, please go to the documentation for the setup https://zenodo.org/records/10522951 and 

                                               https://github.com/oschwengers/bakta?tab=readme-ov-file#database 

  --bakta_db_version                 [string]  The Bakta reference database version. [default: 2024-01-19]

  --pseudofinder_db                  [string]  Pseudofinder reference database. Mettannotator uses SwissProt as the database for Pseudofinder.

  --pseudofinder_db_version          [string]  SwissProt version. [default: 2024_06]

 

Generic options

  --multiqc_methods_description      [string]  Custom MultiQC yaml file containing HTML including a methods description.

  --singularity_cachedir             [string]  The singularity/apptainer cache directory

 

 !! Hiding 17 params, use --validationShowHiddenParams to show them !!

------------------------------------------------------

If you use ebi-metagenomics/mettannotator for your analysis please cite:

 

* The nf-core framework

  https://doi.org/10.1038/s41587-020-0439-x

 

* Software dependencies

  https://github.com/ebi-metagenomics/mettannotator/blob/master/CITATIONS.md

------------------------------------------------------

 

データベース

以下のDBが使用される。interproscan、eggnog、bakta(uniref ?)が特に大きい。

DBは初回実行時に --dbsで指定したディレクトリに自動でダウンロードされる。2回目からは --dbs でそのDBパスを指定する。

 

テストラン

mettannotatorを実行するには入力ファイルについて示したCSVが必要。

wget https://raw.githubusercontent.com/EBI-Metagenomics/mettannotator/master/tests/test.csv

> cat test.csv

1)ゲノムアセンブリのprefix(出力ファイルやタンパク質に割り当てられる接頭辞、最大24文字)、2)FASTA 形式のアセンブルファイルへのパス、3)taxidを記載したCSVファイルを指定する。Tax IDはNCBIのTaxIdで、種レベルのTax IDがわからない場合は、より高い分類レベルのTax IDを使用する。

 test.csvでは1つのゲノムだけ指定されている。また2のパスはURLとして指定されている。

 

CSVファイルと出力ディレクトリ、DBのパスを指定して実行する。初回は指定したパスにDBがダウンロードされるため、かなりの時間がかかる(1晩かかった)。

nextflow run mettannotator/main.nf --input test.csv --outdir outdir --dbs ./mettannotatorDB -profile docker

$ nextflow run mettannotator/main.nf --input test.csv --outdir outdir --dbs ./mettannotatorDB -profile docker

 

 N E X T F L O W   ~  version 24.10.4

 

Launching `mettannotator/main.nf` [deadly_sax] DSL2 - revision: f2a0e51af6

 

 

 

------------------------------------------------------

  ebi-metagenomics/mettannotator v1.4.0

------------------------------------------------------

Core Nextflow options

  runName        : deadly_sax

  containerEngine: docker

  launchDir      : /media/kazu/8TB

  workDir        : /media/kazu/8TB/work

  projectDir     : /media/kazu/8TB/mettannotator

  userName       : kazu

  profile        : docker

  configFiles    : 

 

Input/output options

  input          : test.csv

  outdir         : outdir

 

Reference databases

  dbs            : ./mettannotatorDB

 

!! Only displaying parameters that differ from the pipeline defaults !!

------------------------------------------------------

If you use ebi-metagenomics/mettannotator for your analysis please cite:

 

* The nf-core framework

  https://doi.org/10.1038/s41587-020-0439-x

 

* Software dependencies

  https://github.com/ebi-metagenomics/mettannotator/blob/master/CITATIONS.md

 

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:AMRFINDER_PLUS_GETDB     -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:ANTISMASH_GETDB          -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DEFENSE_FINDER_GETDB     -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DBCAN_GETDB              -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPROSCAN_GETDB        -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPRO_ENTRY_LIST_GETDB -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:AMRFINDER_PLUS_GETDB     -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:ANTISMASH_GETDB          -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DEFENSE_FINDER_GETDB     -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DBCAN_GETDB              -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPROSCAN_GETDB        -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPRO_ENTRY_LIST_GETDB -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:EGGNOG_MAPPER_GETDB      -

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:AMRFINDER_PLUS_GETDB     [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:ANTISMASH_GETDB          [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DEFENSE_FINDER_GETDB     [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DBCAN_GETDB              [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPROSCAN_GETDB        [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPRO_ENTRY_LIST_GETDB [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:EGGNOG_MAPPER_GETDB      [  0%] 0 of 1

[-        ] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:RFAM_GETMODELS           [  0%] 0 of 1

executor >  local (9)

[c8/022162] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:AMRFINDER_PLUS_GETDB (AMR Finder DB 2024-01-31.1)   [  0%] 0 of 1

[71/a5b74d] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:ANTISMASH_GETDB (antiSMASH 7.1.0)                   [  0%] 0 of 1

[6f/5dc934] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DEFENSE_FINDER_GETDB (Defense Finder Models 1.2.3)  [  0%] 0 of 1

[3c/68db26] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DBCAN_GETDB (DBCan 4.1.3_V12)                       [  0%] 0 of 1

[b0/9c4351] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPROSCAN_GETDB (IPRS Scan 5.62-94.0)             [  0%] 0 of 1

[0b/aecbb7] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPRO_ENTRY_LIST_GETDB (InterPro Entry List 94.0) [  0%] 0 of 1

[18/6d02d0] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:EGGNOG_MAPPER_GETDB (EGGNOG Mapper DB 5.0.2)        [  0%] 0 of 1

[d4/49f37b] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:RFAM_GETMODELS (Rfam models - release 14.9)         [  0%] 0 of 1

executor >  local (9)

[c8/022162] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:AMRFINDER_PLUS_GETDB (AMR Finder DB 2024-01-31.1)   [  0%] 0 of 1

[71/a5b74d] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:ANTISMASH_GETDB (antiSMASH 7.1.0)                   [  0%] 0 of 1

[6f/5dc934] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DEFENSE_FINDER_GETDB (Defense Finder Models 1.2.3)  [  0%] 0 of 1

[3c/68db26] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DBCAN_GETDB (DBCan 4.1.3_V12)                       [  0%] 0 of 1

[b0/9c4351] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPROSCAN_GETDB (IPRS Scan 5.62-94.0)             [  0%] 0 of 1

[0b/aecbb7] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPRO_ENTRY_LIST_GETDB (InterPro Entry List 94.0) [  0%] 0 of 1

[18/6d02d0] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:EGGNOG_MAPPER_GETDB (EGGNOG Mapper DB 5.0.2)        [  0%] 0 of 1

[d4/49f37b] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:RFAM_GETMODELS (Rfam models - release 14.9)         [  0%] 0 of 1

[de/ef9c4d] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:PSEUDOFINDER_GETDB (Pseudofinder DB 2024_06)        [  0%] 0 of 1

executor >  local (33)

[c8/022162] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:AMRFINDER_PLUS_GETDB (AMR Finder DB 2024-01-31.1)   [100%] 1 of 1

[71/a5b74d] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:ANTISMASH_GETDB (antiSMASH 7.1.0)                   [100%] 1 of 1

[6f/5dc934] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DEFENSE_FINDER_GETDB (Defense Finder Models 1.2.3)  [100%] 1 of 1

[3c/68db26] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:DBCAN_GETDB (DBCan 4.1.3_V12)                       [100%] 1 of 1

[b0/9c4351] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPROSCAN_GETDB (IPRS Scan 5.62-94.0)             [100%] 1 of 1

[0b/aecbb7] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:INTEPRO_ENTRY_LIST_GETDB (InterPro Entry List 94.0) [100%] 1 of 1

[18/6d02d0] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:EGGNOG_MAPPER_GETDB (EGGNOG Mapper DB 5.0.2)        [100%] 1 of 1

[d4/49f37b] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:RFAM_GETMODELS (Rfam models - release 14.9)         [100%] 1 of 1

[de/ef9c4d] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DOWNLOAD_DATABASES:PSEUDOFINDER_GETDB (Pseudofinder DB 2024_06)        [100%] 1 of 1

[a8/f2a304] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:LOOKUP_KINGDOM (MGYG000000105)                                         [100%] 1 of 1

[7a/fe8023] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:PROKKA_STANDARD (MGYG000000105)                                        [100%] 1 of 1

[e9/dc6add] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:PROKKA_COMPLIANT (MGYG000000105)                                       [100%] 1 of 1

[36/bb00f3] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:QUAST (MGYG000000105)                                                  [100%] 1 of 1

[d7/60b7b7] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:PSEUDOFINDER (MGYG000000105)                                           [100%] 1 of 1

[21/3261b2] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:PSEUDOFINDER_POSTPROCESSING (MGYG000000105)                            [100%] 1 of 1

[59/c702ff] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:CRISPRCAS_FINDER (MGYG000000105)                                       [100%] 1 of 1

[01/9d4b13] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:EGGNOG_MAPPER_ORTHOLOGS (MGYG000000105)                                [100%] 1 of 1

[b4/5f11c5] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:EGGNOG_MAPPER_ANNOTATIONS (MGYG000000105)                              [100%] 1 of 1

[8f/138ad4] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:INTERPROSCAN (MGYG000000105)                                           [100%] 1 of 1

[2b/dfd432] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:AMRFINDER_PLUS (MGYG000000105)                                         [100%] 1 of 1

[9d/d2a3be] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:AMRFINDER_PLUS_TO_GFF (MGYG000000105)                                  [100%] 1 of 1

[62/1c5090] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DEFENSE_FINDER (MGYG000000105)                                         [100%] 1 of 1

[af/166f9b] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:UNIFIRE (MGYG000000105)                                                [100%] 1 of 1

[b3/332de4] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DETECT_TRNA (MGYG000000105)                                            [100%] 1 of 1

[b4/ac18f6] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DETECT_NCRNA (MGYG000000105)                                           [100%] 1 of 1

[5c/73baaa] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:SANNTIS (MGYG000000105)                                                [100%] 1 of 1

[ce/1206d0] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:GECCO_RUN (MGYG000000105)                                              [100%] 1 of 1

[b5/9ad5d7] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:ANTISMASH (MGYG000000105)                                              [100%] 1 of 1

[7f/79622c] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:DBCAN (MGYG000000105)                                                  [100%] 1 of 1

[e6/703af1] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:ANNOTATE_GFF (MGYG000000105)                                           [100%] 1 of 1

[f7/258d26] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:CIRCOS_PLOT (MGYG000000105)                                            [100%] 1 of 1

[2f/854567] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:CUSTOM_DUMPSOFTWAREVERSIONS (1)                                        [100%] 1 of 1

[24/f19b5c] process > EBIMETAGENOMICS_METTANNOTATOR:METTANNOTATOR:MULTIQC                                                                [100%] 1 of 1

-[ebi-metagenomics/mettannotator] Pipeline completed successfully-

Completed at: 25-Feb-2025 00:24:04

Duration    : 2h 31m 59s

CPU hours   : 48.7

Succeeded   : 33

 

出力例

outdir/

DBごとに出力される。

merged_gff

outdir/MGYG000000105/merged_gff/MGYG000000105_plot.png

nextflowとMultiQCのレポートも出力される。

  • annotations.gff:すべてのツールで作成されたアノテーションを1つのファイルにマージしたもの。
  • <PREFIX>_annotations_with_descriptions.gff:上記のGFFファイルのバージョンで、全てのInterPro用語の説明を含む。

両ファイルとも、ファイル末尾にFASTA形式のゲノム配列が含まれる。

  • コンティグ数が50個以下のゲノムについては、<PREFIX>_annotations.gffファイルのCircosプロットが生成される。

 

 

その他(レポジトリより)

  • パイプラインが --fast フラグONで実行された場合、InterProScan、UniFIRE、SanntiSはスキップされる。hypoとしてラベル付けされたタンパク質産物に対してはeggNOG-mapper のアノテーションのみが使用される。しかし、可能な限りフルバージョンのパイプラインを実行することが推奨される。
  • デフォルトでは、タンパク質コード遺伝子の同定にProkkaが使用される。--baktaフラグを立てることでBaktaに切り替えできる(このとき、純正BaktaのncRNAとCRISPRのアノテーションは行われず、mettannotatorの別のツールで行われる)
  • 古細菌のtax IDと認識されると、強制的にProkkaを使用してアノテーションが行われる(baktaは細菌向けのため)。
  • mettannotatorは偽遺伝子や偽のORFを検出するために複数のアプローチを使用する(レポジトリ参照)。
  • ENAまたはGenBankサブミット用のアノテーション:mettannotatorは、最終的なアノテーションファイルをGFF3フォーマットで作成する。アノテーションをサブミットするには、mettannotatorのGFF3ファイルをサードパーティのツールを使って必要な形式に変換する(EMBLmyGFF3紹介)(table2asn)。
  • mettannotatorには統合されていないが、ウイルスアノテーションもサポートされている(レポジトリ参照)。
  • 入力のCSVの作成支援のため、generate_input_file.py:スクリプトが用意されている(: ゲノムのリストとBAT(紹介)によって生成された分類結果を使用する。使い方はレポジトリ参照)。

引用

mettannotator: a comprehensive and scalable Nextflow annotation pipeline for prokaryotic assemblies 

Tatiana A Gurbich, Martin Beracochea, Nishadi H De Silva, Robert D Finn

Bioinformatics, Volume 41, Issue 2, February 2025

 

”WorkflowHub”

科学計算ワークフローの記述、共有、公開のためのレジストリ

https://workflowhub.eu/workflows/1069

 

関連