2022/05/04 追記
メタゲノミクスは、微生物群集に含まれるすべての生物の機能的可能性を研究するための著名な技術となっている。しかし、ほとんどの研究では、真核微生物を無視して、微生物群集に含まれるバクテリアに焦点を当てている。実際、多くのメタゲノミクス解析パイプラインは、メタゲノムのコンティグがすべて原核生物であることを黙認している。しかし、原核生物の遺伝子予測ツールは、遺伝子の構造が大きく異なるため、真核生物の遺伝子を正確に予測することができない。そこで本著者らは、真核生物と原核生物のコンティグを、遺伝子構造の違いに基づいて区別する分類法を開発した。まず、遺伝子間距離、遺伝子密度、遺伝子長を最も重要な特徴とするランダムフォレスト分類器を開発した。生物学に基づいた原理的な特徴を持つこの分類器の推定精度は97%であり、k-mer頻度を特徴とする分類器「EukRep」や「Tiara」とほぼ同等の性能を発揮することを示した。Tiaraの予測値を追加して分類器を再学習することで、両タイプの分類器の弱点が補われ、その結果、真核生物と原核生物の両方について、精度、再現率、精度のいずれにおいてもF1スコアが1.00となり、個々の分類器を凌駕し、かつ高速な分類器が完成した。病気を抑制する植物内圏微生物群集から得られたメタゲノムデータの再解析では、真核生物遺伝子予測のためのコンティグの選択にWhokaryoteを使用することで、元の研究では見逃されていたいくつかの生合成遺伝子群の発見が促進されることを示す。′Whokaryote′と呼ぶ強化された分類器は、簡単にインストールできるパッケージにまとめられており、https://git.wageningenur.nl/lotte.pronk/whokaryote から自由に利用することができる。
My first tweet to announce my first preprint about the new eukaryote/prokaryote classifier ‘Whokaryote’ on bioRxiv, together with @marnixmedema: https://t.co/Hgyh5wRKpL
— Lotte Pronk (@PronkLotte) 2021年11月18日
It's wrapped in a python package and is freely available from https://t.co/YQ6liQLfSO
More below! 1/5
インストール
ubuntu18でcondaの仮想環境を作って導入した。
mamba create -n whokaryote python==3.8
conda activate whokaryote
mamba install -c bioconda prodigal -y
python -m pip install tiara
git clone https://git.wur.nl/lotte.pronk/whokaryote.git
cd whokaryote/
python setup.py install
> whokaryote.py
usage: Classify metagenomic contigs as eukaryotic or prokaryotic [-h] [--contigs CONTIGS] [--outdir OUTDIR] [--prodigal_file PRODIGAL_FILE] [--f] [--test] [--train] [--minsize MINSIZE] [--model MODEL]
optional arguments:
-h, --help show this help message and exit
--contigs CONTIGS The path to your contigs file. It should be one multifasta (DNA).
--outdir OUTDIR Specify the path to your preferred output directory. No / at the end.
--prodigal_file PRODIGAL_FILE
If you already have prodigal gene predictions, specify path to the .genes or .gff file
--f If you want new multifastas with only eukaryotes and only prokaryotes. This can take a long time.
--test If you want to test it on a known dataset.
--train For training an RF on your own dataset
--minsize MINSIZE Select a minimum contig size in bp, default = 5000. Accuracy oncontigs below 5000 is lower.
--model MODEL Choose the stand-alone model or the tiara-integrated model: S or T. Option 'T' only works with argument --contigs
実行方法
コンティグのFASTA形式ファイルを指定し、--outdirで出力ディレクトリを指定する。すでにprodigalの遺伝子アノテーションファイルを持っている場合は、--prodigal_fileオプションを使用して.gffを指定する。
whokaryote.py --contigs contigs.fasta --outdir whokaryote_output --prodigal_file contigs_genes.gff
コマンド実行直後にエラーが出ます(5/4)。修正されたら追記します。
引用
Whokaryote: distinguishing eukaryotic and prokaryotic contigs in metagenomes based on gene structure
Lotte J U Pronk, Marnix H Medema
bioRxiv, Posted November 17, 2021
Whokaryote: distinguishing eukaryotic and prokaryotic contigs in metagenomes based on gene structure
Lotte J U Pronk, Marnix H Medema
Microb Genom. 2022 May;8(5)
関連