連結コアタンパク質の多重整列を素早く生成する cognac

　ゲノムデータの量は増加の一途をたどっている。そのためには、利用可能なデータ量に合わせた系統解析のためのツールが必要とされている。本研究では、このようなニーズに対応するために、系統解析のための遺伝子連結アラインメントを迅速に生成するためのユーザーフレンドリーなソフトウェアパッケージであるcognacを紹介する。
　系統マーカー遺伝子を迅速に同定し、非常に大規模なゲノムデータセットに対して連結遺伝子アラインメントを効率的に生成することができることを示す。本ツールのベンチマークとして、8つのユニークな細菌属のコア遺伝子アラインメントを作成した。その中には、Escherichia属の11,000ゲノム以上のデータセットが含まれており、17時間以内に1353遺伝子のアラインメントを作成した。
　系統解析のための遺伝子連結アラインメントを生成するための効率的な方法をcognacが提供することを示す。系統解析に必要なパラメータをカスタマイズできるRパッケージ(https://github.com/rdcrawford/cognac)をリリースした。

インストール

依存

Mafft and cd-hit must be in your path.

Rstudio（freeバージョン）を使ってテストした。mafftとcd-hitはcondaで導入して、/usr/local/bin/にリンクを張った。

install.packages("devtools")
devtools::install_github("rdcrawford/cognac")
library(cognac)

実行方法

ゲノムのfastaファイルとgffファイルのパスを指定する。

algnEnv = cognac(
 fastaDir = "path/to/your/fasta/files/",
 featureDir = "path/to/your/gff/files/",
 threadVal = 4
 )

デフォルトでは、cognac は 2 つのオブジェクトを生成する：連結された遺伝子のアラインメントへのパスと、含まれる遺伝子のメタデータとなる。

メタデータには、遺伝子の説明、カンマで削除された遺伝子ID、アミノアラインメントにおけるパーティションの位置、リクエストされた場合はヌクレオチドアラインメントにおけるパーティションの位置の列が含まれている。

cognac_gene_data.tsv

f:id:kazumaxneo:20210305012147p:plain

もう１つは連結タンパク質の多重整列結果

concatenated_gene_aa_alignment.fasta

neighbor joining treeを作成する関数も提供されている。neighbor joiningは計算量が多い（多すぎる）大規模なデータセットの場合に有効。Githubを確認して下さい。

引用

cognac: rapid generation of concatenated gene alignments for phylogenetic inference from large, bacterial whole genome sequencing datasets
Ryan D. Crawford & Evan S. Snitkin
BMC Bioinformatics volume 22, Article number: 70 (2021)

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

連結コアタンパク質の多重整列を素早く生成する cognac