macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムデータのLCA推定と分類学的プロファイリングを行う ngsLCA 

 

 環境サンプルから生成されたメタゲノム・データは、現代および古代の生物群集の解析においてますます一般的になってきている。この種のデータから分類学的プロフィールを得るためには、DNA配列を大規模なゲノム参照データベースに対してアラインメントし、各配列について複数のアラインメントを用いて最小公倍数祖先(LCA)を推定する必要がある。今日まで、主にアライメントツールの速度、感度、特異性を向上させることに焦点が当てられており、アライメントから分類学的プロファイルを生成するLCAアルゴリズムにはほとんど努力が払われていない。ngsLCAは、LCA推論を実行するメインプログラム(C/C++)と、分類学的プロファイルの表と可視化を生成するRパッケージの2つの独立したモジュールを持つコマンドラインツールキットである。ngsLCAは、BAM/SAMアライメントフォーマットの大規模データセットを、他の利用可能なプログラムと比較して4-11倍高速に処理し、より少ないメモリを使用した。NCBI taxonomyと互換性があり、柔軟なパラメータ設定が可能である。さらに、フィルタリング、コンタミネーション除去、分類学クラスタリング、生成された分類学的プロファイルを可視化する複数の方法を提供する。
ngsLCAは、計算が軽く、使いやすく、正確で、高速かつ柔軟なLCAアルゴリズムと、分類学的プロフィールを処理し図示するためのR関数を提供することで、現在のメタゲノム解析におけるギャップを埋める。

 

インストール

Github

wget https://raw.githubusercontent.com/miwipe/ngsLCA/master/environment.yaml
mamba env create -f environment.yaml
conda activate ngsLCA

> ngsLCA 

    -> ngslca version: 0.9 (htslib: 1.17) build(May 18 2023 23:42:00)

    -> ./ngsLCA -names -nodes -acc2tax [-editdist[min/max] -simscore[low/high] -minmapq -discard] -bam 

 

データベース

このツールキットはNCBI taxonomyをベースに構築されているため、NCBIフォーマットに準拠したリファレンスデータベースが必要。具体的には、データベース配列のFastaヘッダにはNCBI access2taxIDファイルに現れる最初の文字列としてアクセッションIDが含まれ、対応するtaxaIDがNCBIタクソノミーのdmpファイルに存在する必要がある。。

mkdir ncbi_tax_dmp;
cd ncbi_tax_dmp/;
wget https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/new_taxdump/new_taxdump.zip;
unzip new_taxdump.zip;
wget https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz

NCBIがカバーしていないカスタムリファレンスゲノムの場合、ngsLCAメインプログラムを実行する前に、それらのアクセッションIDと対応するNCBI分類学的IDをNCBI access2taxIDファイルに手動で添付する必要がある。

 

テストラン

NCBIで公開されているプラスミド配列をダウンロードして結合して使用する。      bamはこちらのリンクから取得する。ダウンロードしたbamをsortせず使用するとエラーになるので注意する。

#1 DB作成
mkdir refseq_plastids;
cd refseq_plastids;
wget ftp://ftp.ncbi.nlm.nih.gov/refseq/release/plastid/*genomic.fna.gz;
gzip -d *;
cat *.fna > plastids.fa;
rm *.fna;
bowtie2-build --threads 20 plastids.fa plastids

#2 mapping
bowtie2 --threads 20 -k 1000 -x refseq_plastids/plastids -U file_name.fq --no-unal  | samtools sort - > file_name.plastids.bam

#3 複数のデータベースをリファレンスとして使用した場合、結果の bam ファイルをすべてマージし、ソートする(ソートは必須)
samtools merge -@ 10 -n file_name.merged.bam file_name.*.bam
samtools sort -@ 10 -m 2G -n -T /TMP_folder/ -O bam -o file_name.merged.sorted.bam file_name.merged.bam

 

実行方法

ngsLCA -editdistmin 0 -editdistmax 0 -names ncbi_tax_dmp/names.dmp.gz -nodes ncbi_tax_dmp/nodes.dmp.gz -acc2tax ncbi_tax_dmp/nucl_gb.accession2taxid.gz -bam file_name.merged.sorted.bam -outnames outfile.ed0

プロセス途中でcore dumpedする。改善できたら追記します。

 

引用

ngsLCA—A toolkit for fast and flexible lowest common ancestor inference and taxonomic profiling of metagenomic data

Yucheng Wang, Thorfinn Sand Korneliussen, Luke E. Holman, Andrea Manica, Mikkel Winther Pedersen
First published: 13 October 2022 https://doi.org/10.1111/2041-210X.14006Citations: 7