macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムアセンブリから真核生物由来配列を予測する EukRep

 

 真核微生物は生態系機能の重要な貢献者である。微生物群集の中の真核生物を特定するために遺伝子調査またはDNA「バーコード」が頻繁に使用され、真核生物の多様性の幅が示されている(Pawlowski et al、2012)。ただし、これらのアプローチでは種を検出することしかできず、シーケンスされたゲノムがないと代謝やライフスタイルに関する情報を提供できない。完全に配列決定された真核生物ゲノムの大部分は、培養生物からのものである。遺伝子調査で検出された多様な原生生物といくつかの真菌の培養物アクセスの欠如により、真核生物のリファレンスゲノムデータベースに大きなギャップが引き起こされている(Caron et al、2008; Pawlowski et al、2012)。シングルセルゲノミクスは、未培養の真核生物の配列決定に有望であり、一部の部分ゲノムを生成した(Cuvelier et al、2010; Yoon et al、2011; Monier et al、2012; Vaulot et al、2012; Roy et al、2014; Mangot et al、2017)。ただし、複数の置換増幅は、シングルセルゲノムの完全性を制限している(Woyke et al、2010)。(一部略)

 ここでは、多様な環境サンプルからのデータセットアセンブルされた真核生物配列識別に新しいk-merベースのアプローチを適用した。真核生物ゲノム断片の同定により、ドラフトゲノムへのアサインと遺伝子予測の質の向上が可能になった。アセンブルされたメタゲノムコンティグ上で予測された遺伝子は、系統学的プロファイル、再構築されたゲノムの分類、およびそれらの完全性の評価を取り入れた、さらなるビニング決定のための重要なインプットを提供する。(一部略)
 ユタ州クリスタルガイザーの深部地下微生物群集は、候補栄養門(CP)からの多くの生物を含む、化学合成独立栄養細菌と古細菌に支配されていることがよく特徴付けられている(Probst et al、2014、2016; Emerson et al、2015)。現在の理解では、間欠泉の噴出によってさまざまな新しい種類の細菌や古細菌が地表にもたらされている(Probst et al、2018)。このような深い堆積環境では、有機炭素化合物の可用性が高いとは考えられない。したがって、このシステムへの有機炭素の添加は、新しい間欠泉微生物に対して選択し、よりよく知られている従属栄養生物を濃縮することにより、コミュニティの構成を大きくシフトすると仮定した。この予測をテストするために、浅い間欠泉に追加され、地下水導管で崩壊した木材のサンプルを分析した(以後、CG_WC)。このサンプルと、CG_WCの前日に収集された非木材サンプル(CG_bulk)をメタゲノム解析にかけた。

(以下略)

 

インストール

ubuntu18.04 のpython3.6環境でテストした(docker使用、ホストOS ubuntu18.04LTS)

本体 Github

pip install EukRep

EukRep -h

# EukRep -h

usage: EukRep [-h] -i I -o O [-ff] [--min MIN] [--model MODEL] [-k KMER_LEN]

              [--prokarya PROKARYA] [--seq_names]

              [-m {strict,balanced,lenient}] [--version] [--tie TIE]

 

Identify sequences of predicted eukaryotic origin from a nucleotide fasta file. Individual sequences are split into 5kb chunks. Prediction is performed on each 5kb chunk and sequence origin is determined by majority rule of the chunks.

 

optional arguments:

  -h, --help            show this help message and exit

  -i I                  input fasta file

  -o O                  output file name

  -ff                   Force overwrite of existing output files

  --min MIN             Minimum sequence length cutoff for sequences to be included in prediction. Default is 3kb

  --model MODEL         Path to an alternate trained linear SVM model. Default is lin_svm_160_3.0.pickle

  -k KMER_LEN, --kmer_len KMER_LEN

                        Kmer length to use for making predictions. Lengths between 3-7bp are available by default. If using a custom trained model, specify kmer length here.

  --prokarya PROKARYA   Name of file to output predicted prokaryotic sequences to. Default is to not output prokaryotic sequences.

  --seq_names           Only output fasta headers of identified sequences. Default is full fasta entry

  -m {strict,balanced,lenient}

                        Not compatable with --model.

                                How stringent the algorithm is in identifying eukaryotic scaffolds. Strict has a lower false positive rate and true positive rate; vice verso for leneient. Default is balanced.

  --version             show program's version number and exit

  --tie TIE             Specify how to handle cases where an equal number of a sequences chunks are predicted to be of eukaryotic and prokaryotic origin (Generally occurs infrequently).

                                euk = classify as euk

                                prok = classify as prok

                                rand = assign randomly

                                skip = do not classify

                                Default is to classify as eukaryotic.

 

 

実行方法

FASTA配列を指定する。

EukRep -i input.fasta -o output

 

チュートリアルも紹介されています。

https://github.com/patrickwest/EukRep_Pipeline

引用

Genome-reconstruction for eukaryotes from complex natural microbial communities
West PT, Probst AJ, Grigoriev IV, Thomas BC, Banfield JF

Genome Res. 2018 Apr;28(4):569-580