メタゲノムシーケンスリードを分類するための最先端のツールは、迅速かつ正確な選択肢を提供するが、単一のツールで両者を組み合わせることは、常に改善される研究分野である。機械学習ベースのNaïve Bayes Classifier (NBC)アプローチは、サンプル内のすべてのリードを正確に分類するための理論的基礎を提供する。本著者らは、NBCアプローチを改良するために、マルチスレッドMinimizer-based Naïve Bayes Classifier (MNBC)ツールを開発した。模擬可変長リードを用いた標準的な参照配列とテスト配列のフレームワークにより、MNBCを他の6つの最先端ツールと比較した: MetaMaps、Ganon、Kraken2、KrakenUniq、CLARK、Centrifuge。また、Critical Assessment of Metagenome Interpretation (CAMI) IIチャレンジの 「marine 」および 「strain-madness 」ショートリードメタゲノムデータセットに、当時の対応データベースを用いてMNBCを適用した。MNBCは、未知の微生物のリードを効率的に同定し、ショートリードでは種レベル、属レベルで最高の精度と再現性を示し、ロングリードでは種レベルで最高の精度を示した。また、「strain-madness 」データセットでも最高の精度を達成した。MNBCはhttps://github.com/ComputationalPathogens/MNBCから利用できる。
インストール
依存
#JDK(ここではJDK21)
wget https://download.oracle.com/java/21/latest/jdk-21_linux-x64_bin.tar.gz
tar -xzvf jdk-21_linux-x64_bin.tar.gz
cd jdk-21.0.5/bin/
export PATH=$PWD:${PATH}
git clone https://github.com/ComputationalPathogens/MNBC
cd MNBC/example
unzip taxdmp.zip && cd ../
テストラン
1,リファレンスデータベースのtaxonomyファイルを生成。NCBI からダウンロードしたゲノム配列とアセンブリサマリーファイル、nodes.dmp、出力のtaxonomyファイルを名を指定する。
cd MNBC/
java -cp MNBC.jar -Xmx1G MNBC taxonomy -i example/RefSeq_genomes/ -a example/assembly_summary_refseq.txt -n example/nodes.dmp -o example/taxonomy.txt
2,データベースのビルド
java -cp MNBC.jar -Xmx1G MNBC build -k 15 -c 2 -f 300000 -i example/RefSeq_genomes/ -o example/db/
出力
3,シークエンシングリーの分類。作成したDBを指定する。
java -cp MNBC.jar -Xmx1G MNBC classify -k 15 -c 2 -d example/db/ -m example/taxonomy.txt -o example/result.txt -t 1 example/reads.fasta
出力
1列目はリードID、2列目から8列目は種レベルからドメインレベルまで割り当てられた分類群ID番号、最後の列は予測された種を決定するすべての候補参照ゲノムのIDを示している。15リードすべてが正しく分類されている(すなわち、正しい種レベルのタクソンIDが割り当てられているか、未分類とラベル付けされている)ことがわかる(レポジトリより)。
引用
MNBC: a multithreaded Minimizer-based Naïve Bayes Classifier for improved metagenomic sequence classification
Ruipeng Lu, Tim Dumonceaux, Muhammad Anzar, Athanasios Zovoilis, Kym Antonation, Dillon Barker, Cindi Corbett, Celine Nadon, James Robertson, Shannon H C Eagle, Oliver Lung, Josip Rudar, Om Surujballi, Chad Laing
Bioinformatics, Volume 40, Issue 10, October 2024