macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

断片的なアセンブリから高品質のバクテリオファージゲノムを得る Phables

 

 

 ヒトの腸内に存在する微生物群は、ヒトの健康に強い影響を及ぼしている。腸内細菌やウイルスは、炎症性腸疾患などの消化器系疾患に影響を与える。バクテリオファージと呼ばれる細菌に感染するウイルスは、ヒトの腸内の細菌群集を制御する上で重要な役割を担っている。しかし、新規のバクテリオファージの同定と特性解析は、依然として困難な課題となっている。利用可能なツールは、配列間の類似性、ヌクレオチド組成、ウイルス遺伝子/タンパク質の存在を利用している。ほとんどのツールは、ウイルス由来かどうかを判断するために、個々のコンティグについて検討する。ウイルスのアセンブリに課題がある結果、ウイルスゲノムの断片化が起こり、ウイルス同定における新しいアプローチの必要性につながる。著者らは、断片化したウイルスメタゲノムアセンブリからバクテリオファージゲノムを分離する新しい計算手法であるPhablesを紹介する。Phablesは、アセンブリグラフからバクテリオファージに似たコンポーネントを特定し、各コンポーネントをフローネットワークとしてモデル化し、グラフアルゴリズムとフロー分解技術を使ってゲノムパスを特定する。異なる環境から得られたウイルスメタゲノミックサンプルの実験結果から、Phablesによってresolveされたバクテリオファージゲノムの80%以上が高品質で、既存のウイルス識別ツールによって識別された個々のコンティグよりも長いことが示された。


Documentation

https://phables.readthedocs.io/en/latest/

FAQ

https://phables.readthedocs.io/en/latest/faq/

 

HPより

"既存のウイルス同定ツールは、コンティグを事前に訓練されたモデルに通し、それがウイルス由来かどうかを予測します。しかし、ウイルスのアセンブリは必ずしも完全ではないため、コンティグが必ずしも完全なゲノムを表しているとは限りません。既存のメタゲノム解析ツールの多くは、細菌性メタゲノムに最適化されており、ウイルス性メタゲノムを効率的に扱うことができません。私たちは、ウイルスメタゲノムのアセンブリグラフに上の画像のような環状コンポーネントを観察した(Bandageから)。これは、ウイルスゲノムが断片化し、バリアントが存在することを示唆しています。

Phablesは、ウイルスメタゲノムデータ中のファージバブルを利用してバクテリオファージのゲノムを解決するために開発されたツールです。ウイルスメタゲノミックアセンブリグラフ中の環状ファージ様コンポーネントをフローネットワークとしてモデル化し、最小フロー分解問題としてモデル化し、決定したフローパスに対応するゲノムパスを解決するものです。Phablesは、整数線形計画による最小フロー分解の実装を使用してフローパスを求めます。”

(web documentより)

 

インストール

condaで環境を作ってインストールした。

Github

#conda(link)
mamba create -n phables -c conda-forge -c anaconda -c bioconda phables
conda activate phables -y
#pip
pip install phables

#線形計画法のソルバーであるGurobiはphables の condaとpipでは導入されない。別に導入する必要がある。
#conda
mamba install -c gurobi gurobi -y
#pip
pip install gurobipy

> phables

Usage: phables [OPTIONS] COMMAND [ARGS]...

 

  Phables: Phage bubbles resolve bacteriophage genomes in viral metagenomic

  samples. Please refer the full documentation available on Read the Docs at

  https://phables.readthedocs.io/

 

Options:

  -v, --version  Show the version and exit.

  -h, --help     Show this message and exit.

 

Commands:

  run       Run Phables

  install   Install databases

  test      Test Phables

  config    Copy the system default config file

  citation  Print the citation(s) for this tool

 

モデルサイズの制限なく大きなモデルを扱うには、ライセンスを得て、ライセンスの有効化とキーの追加を行う必要がある(link)。所有しているキーを指定。

> grbgetkey <KEY>

 

データベース

Phablesは、セットアップ、テスト、前処理、実行のすべてのステップを使いやすいパイプラインにパッケージ化したSnaketoolを搭載している(レポジトリより)。

以下のコマンドを打つ。

phables install

準備には数分かかる。

 

テストラン

phables test

O.K

 

実行方法

ランするにはGFA形式のアセンブリグラフファイルが必要。またアセンブルするのに使ったfastqファイルのディスプレイのパスを指定する。リードは{sampleName}_R1{fileExtension}の形式で、拡張子は.fq, .fastq, .fq.gz または .fastq.gzを認識する。

phables run --input assembly_graph.gfa --reads fastq/ --output outdir --threads 12
  • -input    assembly graph file in .GFA format
  • --reads    folder containing paired-end read files
  • --output    path to the output directory [default: phables.out]
  • --threads    number of threads to use [default: 1]
  • --use-conda / --no-use-conda   use conda for Snakemake rules [default: use-conda]

condaでリモートパッケージ取得時にエラーを起こした(ubuntu18)。ランできるようになったら追記します。

 

引用

Phables: from fragmented assemblies to high-quality bacteriophage genomes

 Vijini Mallawaarachchi,  Michael J. Roach,  Bhavya Papudeshi,  Sarah K Giles,  Susanna R Grigson,  Przemyslaw Decewicz,  George Bouras,  Ryan D Hesse,  Laura K Inglis,  Abbey LK Hutton,  Elizabeth A Dinsdale,  Robert A Edwards
bioRxiv, Posted April 04, 2023