2024/02/29 コマンド修正
プロファージは細菌ゲノムに組み込まれたファージであり、細菌生物学の多くの側面を理解する鍵となる。プロファージは非常に多様であるため、配列の類似性を利用して検出することは困難である。本著者らは、新規プロファージの発見を容易にするために、特徴空間に基づいた、高速で汎化可能な新しい機械学習法を提案する。このアプローチを検証するために、公開されているmarine viromesとシングルセルゲノムを特徴ベースのアプローチで再分析したところ、現在の最先端のツールで検出されたファージよりも常に多くのファージが検出され、しかも著しく高速であった。このことは、本アプローチがバクテリオファージの発見を大幅に向上させ、新しいバイオロジーを探求するための新たな出発点となることを示している。
インストール
非公式docker imageをpullして試した。
(condaで導入できるが、インストールに失敗した(ubunutu20.04 LTS)。発表から時間が立っているため、要求されているpython3とbiopythonのライブラリと、anacondaが管理しているpython3とbiopythonのバージョンが一致せずインストールできなかったのかもしれない。)
#PyPI
mamba create -y -n PhageBoost-env python=3.8
conda activate PhageBoost-env
pip install PhageBoost
PhageBoost -h
#docker(おそらく非公式)
docker pull multifractal/phageboost
#run image
cd <fasta_dir>/
docker run -itv $PWD:/data --rm -w /data multifractal/phageboost:v0.1.3
> PhageBoost -h
# PhageBoost -h
usage: %prog [options] file (or - for stdin)
[-h] [-f FILES [FILES ...]] [-o OUTPUT] [-m MODEL] [-j N_JOBS] [-cs MIN_SIZE_OF_CONTIG] [-t THRESHOLD] [-l LENGTH] [-g GAPS] [-n NEIGHBOURING] [-r LOOK_FOR_REPEAT_FLAG] [-sr SEARCH_REGION]
[-i INWARDS] [-att ATTSIZE] [-meta META] [-a ALPHA] [-v]
optional arguments:
-h, --help show this help message and exit
-f FILES [FILES ...], --file FILES [FILES ...]
-o OUTPUT, --output OUTPUT
-m MODEL, --model MODEL
-j N_JOBS, --threads N_JOBS
-cs MIN_SIZE_OF_CONTIG, --mincontigsize MIN_SIZE_OF_CONTIG
-t THRESHOLD, --threshold THRESHOLD
-l LENGTH, --length LENGTH
-g GAPS, --gaps GAPS
-n NEIGHBOURING, --neighbouring NEIGHBOURING
-r LOOK_FOR_REPEAT_FLAG, --look_for_repeats LOOK_FOR_REPEAT_FLAG
-sr SEARCH_REGION, --search-region SEARCH_REGION
-i INWARDS, --inwards INWARDS
-att ATTSIZE, --att-size ATTSIZE
-meta META, --meta META
-a ALPHA, --alpha ALPHA
-v, --version show program's version number and exit
Example of usage:
PhageBoost -f example/data/NC_000907.fasta.gz -o results
テストラン
git clone https://github.com/ku-cbd/PhageBoost.git
cd PhageBoost/
PhageBoost -f example/data/NC_000907.fasta.gz -o results
-
-f FILES
-
-o OUTPUT
出力例
プロファージと予想された領域ごとにfastaファイルとして出力される。また、全てのポジションを示したGFF3ファイルも得られる。
引用
Rapid discovery of novel prophages using biological feature engineering and machine learning
Kimmo Sirén, Andrew Millard, Bent Petersen, M Thomas P Gilbert, Martha R J Clokie, Thomas Sicheritz-Pontén
NAR Genomics and Bioinformatics, Volume 3, Issue 1, March 2021
関連
https://kazumaxneo.hatenablog.com/entry/2020/06/14/175750
https://kazumaxneo.hatenablog.com/entry/2021/03/07/073000