macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

遺伝子構造に基づいてメタゲノム中の真核生物と原核生物のコンティグを区別する Whokaryote

2022/05/04 追記

 

 メタゲノミクスは、微生物群集に含まれるすべての生物の機能的可能性を研究するための著名な技術となっている。しかし、ほとんどの研究では、真核微生物を無視して、微生物群集に含まれるバクテリアに焦点を当てている。実際、多くのメタゲノミクス解析パイプラインは、メタゲノムのコンティグがすべて原核生物であることを黙認している。しかし、原核生物の遺伝子予測ツールは、遺伝子の構造が大きく異なるため、真核生物の遺伝子を正確に予測することができない。そこで本著者らは、真核生物と原核生物のコンティグを、遺伝子構造の違いに基づいて区別する分類法を開発した。まず、遺伝子間距離、遺伝子密度、遺伝子長を最も重要な特徴とするランダムフォレスト分類器を開発した。生物学に基づいた原理的な特徴を持つこの分類器の推定精度は97%であり、k-mer頻度を特徴とする分類器「EukRep」や「Tiara」とほぼ同等の性能を発揮することを示した。Tiaraの予測値を追加して分類器を再学習することで、両タイプの分類器の弱点が補われ、その結果、真核生物と原核生物の両方について、精度、再現率、精度のいずれにおいてもF1スコアが1.00となり、個々の分類器を凌駕し、かつ高速な分類器が完成した。病気を抑制する植物内圏微生物群集から得られたメタゲノムデータの再解析では、真核生物遺伝子予測のためのコンティグの選択にWhokaryoteを使用することで、元の研究では見逃されていたいくつかの生合成遺伝子群の発見が促進されることを示す。′Whokaryote′と呼ぶ強化された分類器は、簡単にインストールできるパッケージにまとめられており、https://git.wageningenur.nl/lotte.pronk/whokaryote から自由に利用することができる。

 

 

インストール

ubuntu18でcondaの仮想環境を作って導入した。

mamba create -n whokaryote python==3.8
conda activate whokaryote
mamba install -c bioconda prodigal -y
python -m pip install tiara

git clone https://git.wur.nl/lotte.pronk/whokaryote.git
cd whokaryote/
python setup.py install

> whokaryote.py

usage: Classify metagenomic contigs as eukaryotic or prokaryotic [-h] [--contigs CONTIGS] [--outdir OUTDIR] [--prodigal_file PRODIGAL_FILE] [--f] [--test] [--train] [--minsize MINSIZE] [--model MODEL]

 

optional arguments:

  -h, --help            show this help message and exit

  --contigs CONTIGS     The path to your contigs file. It should be one multifasta (DNA).

  --outdir OUTDIR       Specify the path to your preferred output directory. No / at the end.

  --prodigal_file PRODIGAL_FILE

                        If you already have prodigal gene predictions, specify path to the .genes or .gff file

  --f                   If you want new multifastas with only eukaryotes and only prokaryotes. This can take a long time.

  --test                If you want to test it on a known dataset.

  --train               For training an RF on your own dataset

  --minsize MINSIZE     Select a minimum contig size in bp, default = 5000. Accuracy oncontigs below 5000 is lower.

  --model MODEL         Choose the stand-alone model or the tiara-integrated model: S or T. Option 'T' only works with argument --contigs

 

 

 

実行方法

コンティグのFASTA形式ファイルを指定し、--outdirで出力ディレクトリを指定する。すでにprodigalの遺伝子アノテーションファイルを持っている場合は、--prodigal_fileオプションを使用して.gffを指定する。

whokaryote.py --contigs contigs.fasta --outdir whokaryote_output --prodigal_file contigs_genes.gff

 

コマンド実行直後にエラーが出ます(5/4)。修正されたら追記します。

引用

Whokaryote: distinguishing eukaryotic and prokaryotic contigs in metagenomes based on gene structure
Lotte J U Pronk,  Marnix H Medema

bioRxiv, Posted November 17, 2021

 

Whokaryote: distinguishing eukaryotic and prokaryotic contigs in metagenomes based on gene structure
Lotte J U Pronk, Marnix H Medema

Microb Genom. 2022 May;8(5)

 

関連