macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

MetaRon

 

 細菌の遺伝子は環境刺激に反応して効率的に制御され、オペロンとして知られるユニークな遺伝子クラスターを形成している。このように、オペロンの参照情報や機能情報が不足しているため、オペロンの予測は困難である。
 本研究では、MetaRon(Metagenome and whole-genome opeRon prediction pipeline)を用いて、全ゲノムおよびメタゲノムのオペロンを同定した。この論文では、実験情報や機能情報がなくてもオペロンを同定することができる。メタゲノム上でのオペロンの同定には、実験情報や機能情報を必要としなかった。大腸菌MG1655、結核菌H37Rv、枯草菌16条)、鶏腸から抽出した大腸菌c20ドラフトゲノム、ヒト腸から抽出した145個の全ゲノムデータのmixtureを模擬した全ゲノムデータへの適用から始まり、最終的には145個の全メタゲノムデータサンプルへの適用が行われた。大腸菌全ゲノム(97.8%、94.1%、92.4%)、模擬ゲノム(93.7%、75.5%、88.1%)、大腸菌c20(87%、91%、88%)において、MetaRonは一貫して高いオペロン予測感度、特異性、精度を達成した。最後に、145のペアエンドヒト腸内メタゲノムサンプルから1,232,407のユニークなオペロンを同定した。また、2型糖尿病とマルトースホスホリラーゼ(K00691)、3-デオキシ-D-グリセロ-D-ガラクト-ノナン酸9-リン酸合成酵素(K21279)、および未同定タンパク質(K07101)との強い関連性も報告した。
 MetaRonを使用することで、既存の全ゲノムオペロン予測手法の顕著な2つの制限を取り除くことができた。また、その際には、そのデータを利用して、そのデータを用いて、そのデータを解析することも可能である。また、全ゲノムデータにおける二次代謝産物の傾向や病態発生における二次代謝産物の役割を表現するために、オペロンをサブセットとして利用することも実証している。メタゲノムのオペロンデータを用いて二次代謝の傾向を調べることで、データ量を大幅に削減し、より精度の高いデータを得ることができる。さらに、2型糖尿病(T2D)の発生に関連する代謝経路の同定は、ヒト腸内メタゲノム解析の別の次元を提示している。おそらく、この研究は、メタゲノムオペロンを予測し、疾患(この場合は2型糖尿病)に関連して詳細な解析を行うための最初の組織化された取り組みである。メタゲノムデータへのMetaRonの応用は、遺伝子制御や治療用メタゲノムの理解に有益なものとなるだろう。

 

 

インストール

ubuntu18.04LTSでmambaを使って依存ツールを導入後、”python setup.py install”を打って導入した。

依存

MetaRon requires:

* Python (2.7 )
* IDBA (iterative De Bruijn Graph De Novo Assembler) [conda install -c bioconda idba]
* Prodigal [conda install -c bioconda prodigal]
* BDGP: Neural Network Promoter Prediction 2.2
* antiSMASH: antibiotics & Secondary Metabolite Analysis Shell (Optional: required for downstream analysis only.)
* BOWTIE (Optional: only required for downstream analysis)

Github

mamba create -n metaron -y python=2.7
conda activate metaron
mamba install -c bioconda idba -y
mamba install -c bioconda/label/cf201901 antismash -y
mamba install -c bioconda bowtie -y
mamba install pathlib -y

#from github
git clone https://github.com/zaidissa/MetaRon.git
cd metaron-1.0
python setup.py install

#pypi (link)
pip install metaron

> metaron --help
usage: metaron [-h] [-n SAMPLE] [-p PROCESS] [-rt READ_TYPE] [-rl READ_LENGTH]
[-pe1 PAIRED_1] [-pe2 PAIRED_2] [-pm PAIRED_MERGED] [-i IGP]
[-j ISC] [-t TOOL] [-o OUTPUT]

optional arguments:
-h, --help show this help message and exit
-n SAMPLE, --sample SAMPLE
Sample name without any dot, underscore or dash
-p PROCESS, --process PROCESS
1. ago: assembly gene prediction and operon prediciton
2. op: operon prediction only. If 'ago', please
provide the following parameters:
-n,-rl,-rt,[-pe1,pe2|-pm],
-rt READ_TYPE, --read_type READ_TYPE
Enter read type. 'merge' if the reads are paired-end
in two file. 'paired' if the reads are paired-end in
one file.
-rl READ_LENGTH, --read_length READ_LENGTH
Enter 'l'if read length is longer than 128 bases and
'r' if read length is shorter than 128 bases
-pe1 PAIRED_1, --paired_1 PAIRED_1
Enter enter paired read file 1
-pe2 PAIRED_2, --paired_2 PAIRED_2
Enter enter paired read file 2
-pm PAIRED_MERGED, --paired_merged PAIRED_MERGED
Enter the paired end read file if both pairedend reads
are in one file
-i IGP, --igp IGP Select the gene prediction .tab file generated via
MetageneMark or Prodigal
-j ISC, --isc ISC Select the file containing all scaftigs
-t TOOL, --tool TOOL Enter 1 for MetaGeneMark, 2 for Prodigal
-o OUTPUT, --output OUTPUT
Enter output destination folder

 

 

データベース

cd metaron-1.0
tar -xvf NNPP2.2.tar
#configファイルに解凍したNNPP2.2のパスを記載する
vi config.txt

 

テストラン

fasterq-dump ERR022075 -e 8 -p
mkdir outdir
metaron --sample ERR022075 --process ago --read_type merge--read_length r --paired_1 ERR022075.1.fastq --paired_2 ERR022075.2.fastq --output
  •  -n SAMPLE, --sample SAMPLE    Sample name without any dot, underscore or dash
  • -p PROCESS, --process PROCESS
       ago: assembly gene prediction and operon prediciton
       op: operon prediction only. If 'ago', please provide the following parameters:
    -n,-rl,-rt,[-pe1,pe2|-pm],
  • -rt READ_TYPE, --read_type READ_TYPE    Enter read type. 'merge' if the reads are paired-end in two file. 'paired' if the reads are paired-end in one file.

 

ERR022075をダウンロードして使用したが、IDBAのランでエラーになる。解決したら追記します。

 

 

引用

Prediction and analysis of metagenomic operons via MetaRon: a pipeline for prediction of Metagenome and whole-genome opeRons

Syed Shujaat Ali Zaidi, Masood Ur Rehman Kayani, Xuegong Zhang, Younan Ouyang & Imran Haider Shamsi
BMC Genomics volume 22, Article number: 60 (2021)