macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムデータを種レベルで検出し割合を計算するmOTUとfetch-MG

追記9/5;ソフト名や使い方を勘違いしておりましたので修正します。

 

 環境サンプル中の種の多様性を評価する手法として16S rRNA遺伝子を特異的に増幅する手法がよく知られているが、種によっては配列の異なるrRNA遺伝子を複数持つことがある。ここにPCR増幅のbiasもかかってくるため、16S rRNAだけでメタゲノムデータを評価すると、特に近縁種間の誤差が大きくなる可能性がある。

最近ではNGSを使った環境サンプルの全ゲノムシーケンスが選択肢として選べるようになった。しかしながら、メタゲノムシーケンスから菌叢の定量を行うと、遺伝子のコピー数の違いからbiasが非常に大きくなる。そのため、高精度な定量を行うには生物全てが保有しているようなユニバーサルでシングルコピーな(つまり滅多に水平伝達で複製しない)遺伝子セットを使ったメタゲノムデータの定量が必要になってくる。

これまでの研究で、シングルコピーでユニバーサルな遺伝子セットが見出されてきた(Ciccarelli et al., Science, 2006; Sorek et al., Science, 2007; von Mering et al., Science, 2007)。fetch-MGは先行研究で見出されたシングルコピーでユニバーサルな40遺伝子を使い、メタゲノムデータから菌の種類と割合を計算・出力する。

 

 

公式サイト

http://www.bork.embl.de/software/mOTU/index.html

チュートリアル

http://www.bork.embl.de/software/mOTU/tutorial.motu.standalone.html

 

インストール

mOTUとfetch-MGのダウンロードリンクもチュートリアルに存在している。

 fetch-MG自体はmacで動作するが、bin/の実行ファイルがmacで動作しなかったのでcent OSにインストールした。

 

追記

condaを使う

#bioconda (link)
conda install -c bioconda -y motus

 

 

実行方法

fetch-MGを使い40のMGs(protein-coding phylogenetic marker genes)を抽出する。

./fetchMG.pl -m extraction -x bin example_dataset/example_data.faa
  • -t Number of processors/threads to be used
  • -o Output directory; default = 'output'
  • -h Path to directory that contains hmm models; default = './lib'
  • -p Set if nucleotide sequences for filename.faa is not available
  • -d Fasta file with DNA sequences of the same genes; not neccesary if protein file and dna file have the same with .faa and .fna suffixes

入力はfaaファイル(ただし40のMGsが抽出できる前提で動作しているので、ゲノムの全タンパク質配列が揃っていないと正しく動作しない)。またdna配列(同じ名前で与える必要がある。e.g., example.fnaexample.faa)があれば、該当するタンパク質の塩基配列も出力してくれる。詳細はexample_datasets/を参照。

 

 

作成中。

ここから下は下書きです。

 

 

ペアードエンドfastqを指定してラン(非圧縮かgz圧縮のfastqに対応)。

./motus.pl sample.1.fq sample.2.fq
  • --verbose Be more verbose while running the analysis
  • --processors=N This should be an integer and defines the number of processors that the script will use.
  • --length-cutoff=L The minimum size per read (after quality-based trimming), default: 45.
  • --identity-cutoff=I Minimum percentage identity in alignment (default: 97) --quality-cutoff=Q Basepair quality cutoff (default: 20)
  • --fastq-format The format of the input files. Must be one of 'auto' (the default), 'sanger', or 'illumina'. Note that new Illumina machines actually use the 'sanger' format. The auto-detection should generally work well.
  • --output-directory Where to place the final results file (by default it uses a directory named ``RESULTS``).

 

RESULULTSに解析結果が出力される。 検出された菌の種名と割合が出力されている。

f:id:kazumaxneo:20170903161302j:plain

  

 

 

 複数fastqを解析する場合、fastqをそれぞれのディレクトリに入れて、其のパスを記載したファイル(1行ずつ記載)を指定してランする。

./mOTUs.pl --sample-file input.txt

 

 

 

引用

Metagenomic species profiling using universal phylogenetic marker genes.

Sunagawa S1, Mende DR, Zeller G, Izquierdo-Carrasco F, Berger SA, Kultima JR, Coelho LP, Arumugam M, Tap J, Nielsen HB, Rasmussen S, Brunak S, Pedersen O, Guarner F, de Vos WM, Wang J, Li J, Doré J, Ehrlich SD, Stamatakis A, Bork P.

Nat Methods. 2013 Dec;10(12):1196-9. doi: 10.1038/nmeth.2693. Epub 2013 Oct 20.

 

 

ユニバーサルな遺伝子に関する 先行研究

 

関連