macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ペアエンドシークエンシングリードを使ってメタゲノムアセンブリゲノムと16S rRNAマーカー遺伝子を結び付ける MarkerMAG

 

 メタゲノムアセンブリゲノム(MAG)は、微生物の機能についての理解を大幅に広げている。しかし、系統解析や環境調査でよく用いられる16S rRNA遺伝子は、MAGから欠落していることが多い。そこで、ペアエンドシーケンスリードを用いて、16S rRNA遺伝子とMAGを結びつけるパイプライン、MarkerMAGを開発した。様々な複雑度を持つ3つのメタゲノムデータをベンチマークとしてMarkerMAGを評価した結果、16S rRNA遺伝子を持つMAGの数が大幅に増加し、割り当て精度が100%であることが確認された。また、MAGに含まれる16S rRNA遺伝子のコピー数を高い精度で推定することができた。3つのリアルメタゲノム解析データセットで評価した結果、16S rRNA遺伝子を持つMAGの数が1.1~14.2倍増加することが確認された。また、MarkerMAGによって改良されたMAGは、16S rRNA遺伝子アンプリコンデータからの機能予測精度を向上させることを示す。MarkerMAGは、MAGデータベースと16S rRNAデータベースやサーベイの情報を結びつけるのに役立ち、微生物の多様性、機能、系統の理解促進に貢献する。MarkerMAGはPython3で実装されており、https://github.com/songweizhi/MarkerMAG で自由に利用することができる。

 

インストール

ubuntu18でcondaを使って環境を作ってテストした。
Github

#conda(link)
mamba create -n MarkerMAG_env -y
conda activate MarkerMAG_env
mamba install -c bioconda MarkerMAG -y

#pip(ほかの依存ツールは別途導入する必要がある)
pip3 install MarkerMAG

> MarkerMAG -h

           ...::: MarkerMAG v1.1.26 :::...

 

    link             ->  link MAGs to 16S rRNA genes

    get_cp_num       ->  estimate copy number of 16S rRNA genes

    rename_reads     ->  rename paired short reads

    matam_16s        ->  reconstruct 16S rRNA genes with Matam

    uclust_16s       ->  cluster 16S rRNA genes with Usearch

    barrnap_16s      ->  identify 16S rRNA genes with Barrnap

    subsample_reads  ->  subsample reads with Usearch

 

 

実行方法

MarkerMAG をランするには、MAG配列のセットと16S rRNA配列が必要。

 

1、MAGに対応する16S rRNA配列を持っていない場合、MarkerMAG  matam_16sを使って16S rRNAを再構成することができる。SILVA SSU databaseを使う。手順はマニュアルに従う(マニュアル)。

#1 DB作成(SILVA Release138)
mkdir matamDB
matam_db_folder=./matamDB
cd $matam_db_folder
wget https://www.arb-silva.de/fileadmin/silva_databases/release_138_1/Exports/README.txt
wget https://www.arb-silva.de/fileadmin/silva_databases/release_138_1/Exports/SILVA_138.1_SSURef_NR99_tax_silva.fasta.gz
gunzip SILVA_138.1_SSURef_NR99_tax_silva.fasta.gz
matam_db_preprocessing.py --clustering_id_threshold 0.99 --max_memory 30000 --cpu 12 -v -i SILVA_138.1_SSURef_NR99_tax_silva.fasta -d SILVA_138_1_SSURef_NR99_id99

#2 MarkerMAG matam_16sのラン。作成したSILVA DBのディレクトリSILVA_138_1_SSURef_NR99_id99/のSILVA_138.1_SSURef_NR99_tax_silva_NR99までを指定する
MarkerMAG matam_16s -p prefix -r1 sample_R1.fastq -r2 sample_R2.fastq -pct 1,5,10,25,50,75,100 -i 0.99 -d ./SILVA_138_1_SSURef_NR99_id99/SILVA_138.1_SSURef_NR99_tax_silva_NR99 -t 20

#2 もしくはmatamを直接ランして16S RNAを再構成する(サブサンプリングを繰り返す事はしない)。
matam_assembly.py -i filtered_reads_R1_R2.fastq -o Matam_outputs -d ./SILVA_138_1_SSURef_NR99_id99/SILVA_138.1_SSURef_NR99_tax_silva_NR99 -v --cpu 20 --max_memory 60000

(マニュアルより)MarkerMAG matam_16sコマンドは、16S rRNA リードを抽出し、1, 5, 10, 25, 50, 75, 100%の割合でサブサンプリングする(Matamを用いた16S rRNA遺伝子の再構成は、シークエンシングのデプスに影響され、OTUによって適したリード数は変わる)。すべてのサブセットから再構成された16S rRNA遺伝子配列を結合し、99%の同一性カットオフでクラスタリングする。各クラスタから最長の配列が保持される。

#1のDBの例

SILVA_138_1_SSURef_NR99_id99/

#2の出力(ここではmatam_assembly.pyの出力)

 

2、MarkerMAGのラン。シークエンシングリードはfastqかfasta形式で提供する。MAGのfastaファイルは-magオプションでディレクトリを指定する。

MarkerMAG link -p Demo -r1 demo_R1.fasta -r2 demo_R2.fasta -marker demo_16S.fasta -mag demo_MAGs -x fa -t 12

 

 

引用

MarkerMAG: linking metagenome-assembled genomes (MAGs) with 16S rRNA marker genes using paired-end short reads Get access Arrow
Weizhi Song, Shan Zhang, Torsten Thomas
Bioinformatics, Published: 17 June 2022

 

関連