パンゲノム解析ツールキット PATO - macでインフォマティクス

2022/06/30 エラー発生時の対処例追記

　デスクトップパソコンを用いて数千のゲノムを同時に解析するために設計されたPangenome Analysis Toolkit (PATO)を発表する。このツールは、コアゲノムの定義やアクセサリーゲノムの特性といったパンゲノム解析の共通タスクを実行するほか、集団構造の特徴づけ、病原性のアノテーション、遺伝子共有ネットワークの作成に役立つ新機能を搭載している。PATOはRで開発され、この環境で遺伝学的、系統学的、統計学的解析に利用できる大規模なツールセットと統合されている。

　PATOは、最も要求の厳しいバイオインフォマティクス解析を、最先端のソフトウェアと同等の精度で、しかも20～30倍の速さで数分以内に実行することができる。また、PATOは微生物学研究において最も一般的な目的の解析のために必要なすべての機能を統合している。最後に、PATOは結果を視覚化するために必要なツールを備えており、Rで利用可能な他の分析パッケージと統合することができる。PATOのソースコードは、GPLv3ライセンスのもと、https://github.com/irycisBioinfo/PATO で自由に入手できる。

Manual

https://github.com/irycisBioinfo/PATO/wiki/Manual

インストール

condaで環境を作ってRを導入してテストした(ubuntu18使用)。

依存

PATO requires R 3.6 or newer. To install PATO package you need to install devtools package

Github（依存するライブラリの導入方法なども説明されている）

sudo apt update
sudo apt install libcurl4-openssl-dev libssl-dev libxml2-dev libmagick++-dev libv8-dev

install.packages("devtools")
setRepositories(ind = c(1,2))
devtools::install_github("https://github.com/irycisBioinfo/PATO.git",
 build_vignettes = TRUE)

#エラーが出る場合はソースから最新のリリースをインストールする。
wget https://github.com/irycisBioinfo/PATO/releases/download/1.0.6/pato_1.0.6.tar.gz
R CMD INSTALL --no-multiarch --with-keep.source pato_1.0.6.tar.gz

実行方法

1、ロード

library(pato)

２、GFFファイルの読み込み

（マニュアルより）配列ファイルには、全ゲノムファイル、CDSファイル、アミノ酸ファイルなど、いくつかの種類があります。PATOはこれらすべてを扱うことができます。特にGFFファイルを使用すると、すべての情報を一緒に持つことができます。そのためのload_gff_list() 関数は、GFFファイルを解析します。オリジナルの GFF ファイルの他に、FNA（全ゲノム配列）、FFN（CDS 配列）、FAA（アミノ酸配列）の全種類のファイルを格納するためのディレクトリを作成します。

#読み込むGFFファイルのリストを作る。dir関数を使ってを文字ベクトルで返す。
gff_files <- dir("./input_GFF_dir", pattern = ".gff", full.names = T)

#load_gff_list() 関数(link)を使ってgffs
gffs <- load_gff_list(gff_files)

Error in socketAccept(socket = socket, blocking = TRUE, open = "a+b", :が出た時は、load_gff_list()に"n_cores = 1"を追加してマルチスレッドを止める。

３、MASHのラッパーであるmash() 関数(link)は、塩基またはアミノ酸のfastaファイル同士の類似性距離を推定するために利用できる。GFFからタンパク質配列を取り出し、MASHで総当たりのペアワイズ距離の推定、mashオブジェクトを作成する。

my_mash <- mash(gffs, n_cores = 20, sketch = 1000, kmer = 21, type = "prot")

デフォルトではアミノ酸のfastaファイルを使用するが（type = "prot"）、ヌクレオチドの fastaファイルも使用可能。

４、MMSeqs2 ソフトウェアのラッパーであるmmseqs() 関数(link)は、全ての各遺伝子/タンパク質配列をクラスタリングし、クラスタリング結果をRに読み込み、解析してmmseqオブジェクトを作成する。

my_mmseq <- mmseqs(gffs, coverage = 0.8, identity = 0.8, evalue = 1e-6,
 n_cores = 20, cov_mode = 0, cluster_mode = 0)

identity や coverage の値は、コアゲノムとアクセサリゲノムの割合に影響を与える。

豊富な機能があり、一般的なパンゲノム解析の解析をPATOのみで実行できるようになっています。しかし、Rのバージョンによって対応していない機能もあるようです。導入する際は注意して下さい。具体的に何ができるかはManualを確認して下さい。walk throughで一通り学べるようになっています。

引用

PATO: Pangenome Analysis Toolkit Get access Arrow
Miguel D Fernández-de-Bobadilla, Alba Talavera-Rodríguez, Lucía Chacón, Fernando Baquero, Teresa M Coque, Val F Lanza
Bioinformatics, Volume 37, Issue 23, 1 December 2021, Pages 4564–4566