macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムのデータセットからコアオペロンを探索する POEM

 

 オペロンはDNAの機能単位であり、その遺伝子はポリシストロン性mRNAとして共転写される。オペロンは、細菌に機能的複雑さをもたらす強力なメカニズムであり、したがって微生物の遺伝学、生理学、生化学、および進化から関心がある。全ゲノム中のオペロンを同定するためにいくつかの方法が開発されてきたが、メタゲノムでそれらを同定できるものはほとんどない。ここでは、メタゲノムまたはPOEMでのオペロン探査のパイプラインを紹介する。 POEMの中心にあるのは、遺伝子をオペロン内またはオペロン外に分類するニューラルネットワークである。 POEMは、メタゲノム内のコアオペロンを識別するために、識別されたオペロン内遺伝子間の近接関係を探す。コアオペロンは、メタゲノム内の複数の種に存在する可能性のあるオペロンであり、進化的に保存されていると、正確な予測の確率が高くなる。シミュレートされたメタゲノムでいくつかの異なるアセンブラを使用してPOEMをテストし、非常に正確であることを示した。また、ヒトの腸のメタゲノムサンプルで使用し、新しい推定オペロンを発見した。 POEMは、ゲノムレベルを超えてメタゲノムを分析し、メタゲノムの多遺伝子機能と可能な新機能を特定するための有用なツールであると結論付けた。

 

 

A core operonについて(本文より)

A core operon comprises a set of operonic genes that may have orthologs in several species in the metagenome. 

 

インストール

ubuntu18.04LTSのpython3.7環境でテストした。

 

  • Anaconda for Python 3.7

  • conda

本体 Github

git clone https://github.com/Rinoahu/POEM_py3k
cd POEM_py3k

#インストールスクリプト実行(ラン前に内容をチェックしておく)
bash ./install.sh
cd bin/

> bash run_poem.sh

# bash run_poem.sh

Python 3.7.5

#######################################

#

# usage:

for genome|assembly|contig

$ bash this_script.sh -f genome.fsa -a n -p prodigal

 

for short reads (length <= 600)

$ bash this_script.sh -f reads.fsa -a y -p prodigal -l n

for short reads (length > 600)

$ bash this_script.sh -f reads.fsa -a y -p prodigal -l y

#

#######################################

 

 

 テストラン

cd example/
bash ./runme.sh ecoli.fasta.bz2

 出力

f:id:kazumaxneo:20191225001415p:plain

 各ファイルの詳細はGithubのREADMEの一番下に説明がある。

 

sifファイルをcytoscape3.7で開いた。

f:id:kazumaxneo:20191225002106p:plain

 

実行方法

de novo assemblyして得た配列を指定する。 

bash ./bin/run_poem.sh -f assembly.fasta -a n -p pro 

  

アセンブリ前のリードを使用することもできます。その場合はIDBA_UDによりアセンブリされて使用されます。Githubで確認して下さい。 

引用

Identifying Core Operons in Metagenomic Data

Xiao Hu, Iddo Friedberg

bioRxiv preprint first posted online Dec. 21, 2019