配列の分類は、メタゲノムの複雑さを軽減し、メタゲノムサンプルの構成を基本的に理解するために有効である。しかし、ほとんどの自然環境におけるメタゲノムは、原核生物、真核生物、そしてその両方のウイルスを含む複数の配列ソースから得られているため、2値のメタゲノム分類器では不十分な解決策となる。ここでは、ディープラーニングを用いた配列分類器DeepMicrobeFinderを紹介する。DeepMicrobeFinderは、メタゲノムのコンティグを、原核生物または真核生物の宿主に感染するウイルス、真核生物または原核生物の染色体、原核生物のプラスミドといった5つの配列クラスに分類する。DeepMicrobeFinderは、異なる配列長において、原核生物の染色体とプラスミドを区別する例外を除き、ほとんどの配列クラスでreceiver operating characteristic curve (AUC) スコアが0.9を超える。また,配列クラスを変化させた20個のテストデータセットを用いてベンチマークを行ったところ,DeepMicrobeFinderは,真核生物,プラスミド,ウイルスのコンティグをそれぞれ0.94,0.87,0.92の平均精度スコアで得ており,他の最先端の個別予測器よりも有意に高い精度を示した。ケーススタディとして、南カリフォルニア沿岸部で採取された1~300μmの日次メタゲノムデータを用いて、DeepMicrobeFinderの分類では、真核生物のコンティグによってリクルートされたメタゲノムリードの割合が、他のリファレンスベースの分類器の対応する部分と比較して2倍になることを示した。さらに、真核生物のリード比率と原核生物群集の潜在的な成長率の間には正の相関関係が見られ、真核生物の粒子が増加すると、成長の早い共生物が濃縮されることが示唆された。DeepMicrobeFinderは、包括的なモデリングと前例のないパフォーマンスにより、微生物生態学者のツールボックスに有用な追加機能を提供し、あまり評価されていない配列タイプのメタゲノム研究を促進すると期待している。
インストール
mamba create --name def python=3.6
conda activate def
pip install tensorflow==1.15 keras==2.2.4 numpy scipy pandas sklearn biopython
pip install 'h5py==2.10.0' --force-reinstall
pip install 'scipy==1.4.1' --force-reinstall
git clone https://github.com/chengsly/DeepMicrobeFinder.git
cd DeepMicrobeFinder/
> python predict.py
Using TensorFlow backend.
predict.pyERROR: missing command line argument
Usage: predict.py [options]
Options:
-h, --help show this help message and exit
-i INPUTFILE, --in=INPUTFILE
input fasta file
-d MODELDIR, --modelDir=MODELDIR
model directory for prediction
-e ENCODING, --encode=ENCODING
encoding type, one-hot or codon
-m PREDICTIONMODE, --mode=PREDICTIONMODE
prediction mode: single or hybrid
-l MODELLENGTH, --length=MODELLENGTH
in single mode, optionally choose one model with
length
-o OUTPUTDIR, --outputDir=OUTPUTDIR
output directory for predicted results
テストラン
python predict.py -i test.fasta -e one-hot -d models/one-hot-models/ -m single -l 500
出力例
test.fasta_pred_one-hot_single_500.txt
引用
DeepMicrobeFinder sorts metagenomes into prokaryotes, eukaryotes and viruses, with marine applications
Shengwei Hou, Siliangyu Cheng, Ting Chen, Jed A. Fuhrman, Fengzhu Sun
bioRxiv, Posted October 27, 2021
関連