macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(海洋)メタゲノムを原核生物、真核生物、ウイルスに分類する DeepMicrobeFinder

 

 配列の分類は、メタゲノムの複雑さを軽減し、メタゲノムサンプルの構成を基本的に理解するために有効である。しかし、ほとんどの自然環境におけるメタゲノムは、原核生物、真核生物、そしてその両方のウイルスを含む複数の配列ソースから得られているため、2値のメタゲノム分類器では不十分な解決策となる。ここでは、ディープラーニングを用いた配列分類器DeepMicrobeFinderを紹介する。DeepMicrobeFinderは、メタゲノムのコンティグを、原核生物または真核生物の宿主に感染するウイルス、真核生物または原核生物の染色体、原核生物のプラスミドといった5つの配列クラスに分類する。DeepMicrobeFinderは、異なる配列長において、原核生物の染色体とプラスミドを区別する例外を除き、ほとんどの配列クラスでreceiver operating characteristic curve (AUC) スコアが0.9を超える。また,配列クラスを変化させた20個のテストデータセットを用いてベンチマークを行ったところ,DeepMicrobeFinderは,真核生物,プラスミド,ウイルスのコンティグをそれぞれ0.94,0.87,0.92の平均精度スコアで得ており,他の最先端の個別予測器よりも有意に高い精度を示した。ケーススタディとして、南カリフォルニア沿岸部で採取された1~300μmの日次メタゲノムデータを用いて、DeepMicrobeFinderの分類では、真核生物のコンティグによってリクルートされたメタゲノムリードの割合が、他のリファレンスベースの分類器の対応する部分と比較して2倍になることを示した。さらに、真核生物のリード比率と原核生物群集の潜在的な成長率の間には正の相関関係が見られ、真核生物の粒子が増加すると、成長の早い共生物が濃縮されることが示唆された。DeepMicrobeFinderは、包括的なモデリングと前例のないパフォーマンスにより、微生物生態学者のツールボックスに有用な追加機能を提供し、あまり評価されていない配列タイプのメタゲノム研究を促進すると期待している。

 

インストール

Github

mamba create --name def python=3.6
conda activate def
pip install tensorflow==1.15 keras==2.2.4 numpy scipy pandas sklearn biopython
pip install 'h5py==2.10.0' --force-reinstall
pip install 'scipy==1.4.1' --force-reinstall
git clone https://github.com/chengsly/DeepMicrobeFinder.git
cd DeepMicrobeFinder/

> python predict.py 

Using TensorFlow backend.

predict.pyERROR: missing command line argument

Usage: predict.py [options]

 

Options:

  -h, --help            show this help message and exit

  -i INPUTFILE, --in=INPUTFILE

                        input fasta file

  -d MODELDIR, --modelDir=MODELDIR

                        model directory for prediction

  -e ENCODING, --encode=ENCODING

                        encoding type, one-hot or codon

  -m PREDICTIONMODE, --mode=PREDICTIONMODE

                        prediction mode: single or hybrid

  -l MODELLENGTH, --length=MODELLENGTH

                        in single mode, optionally choose one model with

                        length

  -o OUTPUTDIR, --outputDir=OUTPUTDIR

                        output directory for predicted results

 

 

 

テストラン

python predict.py -i test.fasta -e one-hot -d models/one-hot-models/ -m single -l 500

出力例

f:id:kazumaxneo:20211112080354p:plain

test.fasta_pred_one-hot_single_500.txt

f:id:kazumaxneo:20211112080448p:plain

 

引用

DeepMicrobeFinder sorts metagenomes into prokaryotes, eukaryotes and viruses, with marine applications

Shengwei Hou, Siliangyu Cheng, Ting Chen, Jed A. Fuhrman, Fengzhu Sun

bioRxiv, Posted October 27, 2021

 

関連