macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

細菌ゲノムに組み込まれたプロファージ領域を見つける PhageBoost

2024/02/29 コマンド修正

 

 プロファージは細菌ゲノムに組み込まれたファージであり、細菌生物学の多くの側面を理解する鍵となる。プロファージは非常に多様であるため、配列の類似性を利用して検出することは困難である。本著者らは、新規プロファージの発見を容易にするために、特徴空間に基づいた、高速で汎化可能な新しい機械学習法を提案する。このアプローチを検証するために、公開されているmarine viromesとシングルセルゲノムを特徴ベースのアプローチで再分析したところ、現在の最先端のツールで検出されたファージよりも常に多くのファージが検出され、しかも著しく高速であった。このことは、本アプローチがバクテリオファージの発見を大幅に向上させ、新しいバイオロジーを探求するための新たな出発点となることを示している。

 

インストール

非公式docker imageをpullして試した。

(condaで導入できるが、インストールに失敗した(ubunutu20.04 LTS)。発表から時間が立っているため、要求されているpython3とbiopythonのライブラリと、anacondaが管理しているpython3とbiopythonのバージョンが一致せずインストールできなかったのかもしれない。

Github

#PyPI
mamba create -y -n PhageBoost-env python=3.8
conda activate PhageBoost-env
pip install PhageBoost 
PhageBoost -h

#docker(おそらく非公式)
docker pull multifractal/phageboost
#run image
cd <fasta_dir>/
docker run -itv $PWD:/data --rm -w /data multifractal/phageboost:v0.1.3

> PhageBoost -h

# PhageBoost -h

usage: %prog [options] file (or - for stdin)

 [-h] [-f FILES [FILES ...]] [-o OUTPUT] [-m MODEL] [-j N_JOBS] [-cs MIN_SIZE_OF_CONTIG] [-t THRESHOLD] [-l LENGTH] [-g GAPS] [-n  NEIGHBOURING] [-r  LOOK_FOR_REPEAT_FLAG] [-sr SEARCH_REGION]

                                              [-i INWARDS] [-att ATTSIZE] [-meta META] [-a  ALPHA] [-v]

 

optional arguments:

  -h, --help            show this help message and exit

  -f FILES [FILES ...], --file FILES [FILES ...]

  -o OUTPUT, --output OUTPUT

  -m MODEL, --model MODEL

  -j N_JOBS, --threads N_JOBS

  -cs MIN_SIZE_OF_CONTIG, --mincontigsize MIN_SIZE_OF_CONTIG

  -t THRESHOLD, --threshold THRESHOLD

  -l LENGTH, --length LENGTH

  -g GAPS, --gaps GAPS

  -n  NEIGHBOURING, --neighbouring NEIGHBOURING

  -r  LOOK_FOR_REPEAT_FLAG, --look_for_repeats LOOK_FOR_REPEAT_FLAG

  -sr SEARCH_REGION, --search-region SEARCH_REGION

  -i INWARDS, --inwards INWARDS

  -att ATTSIZE, --att-size ATTSIZE

  -meta META, --meta META

  -a  ALPHA, --alpha ALPHA

  -v, --version         show program's version number and exit

 

    Example of usage:

    PhageBoost -f example/data/NC_000907.fasta.gz -o results

 

 

テストラン

git clone https://github.com/ku-cbd/PhageBoost.git
cd PhageBoost/
PhageBoost -f example/data/NC_000907.fasta.gz -o results
  • -f   FILES

  • -o   OUTPUT 

 

出力例

プロファージと予想された領域ごとにfastaファイルとして出力される。また、全てのポジションを示したGFF3ファイルも得られる。

 

引用

Rapid discovery of novel prophages using biological feature engineering and machine learning 
Kimmo Sirén, Andrew Millard, Bent Petersen, M Thomas P Gilbert, Martha R J Clokie, Thomas Sicheritz-Pontén
NAR Genomics and Bioinformatics, Volume 3, Issue 1, March 2021

 

関連

https://kazumaxneo.hatenablog.com/entry/2020/06/14/175750

 

https://kazumaxneo.hatenablog.com/entry/2021/03/07/073000