macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(microbial genomes)低分子量タンパク質のアノテーションを付ける SmORFinder

 

 Sberroら(2019)が行った最近の研究により、ヒトマイクロバイオーム内に存在するスモールタンパク質の広大な未踏空間が明らかになった。現在のところ、これらの小さなオープンリーディングフレーム(smORF)は既存のリファレンスゲノムではアノテーションされておらず、標準的なゲノムアノテーションツールでは正確に予測することができない。本研究では、Sberroらによって同定されたものをもとにスモールタンパク質を予測するアノテーションツールSmORFinderを導入した。 このツールは、各スモールタンパク質ファミリーのプロファイル隠れマルコフモデル(pHMM)と、トレーニングセットでは見られないsmORFファミリーに対してより一般化する可能性のあるディープラーニングモデルを組み合わせたものである。pHMMとディープラーニングモデルの両方の予測を組み合わせることで、より正確なsmORF予測が可能となり、これらの予測されたsmORFはRibo-SeqまたはMetaRibo-Seq翻訳シグナルに富むことがわかった。特徴重要度解析により、ディープラーニングモデルは、Shine-Dalgarno配列を識別し、各コドンのウォブル位置を優先順位付けし、コドンテーブルで見つかったコドンの同義語に強く対応するようにコドンをグループ化することを学習したことが明らかになった。また、その中から、機能未知のコアとなる多くのsmORFを同定している。また、何千ものRefSeq単離ゲノムとHMPメタゲノムのスモールタンパク質アノテーションを事前に計算し、これらのデータをスモールタンパク質アノテーションと解析のための他の有用なツールとともにウェブポータルを通じて利用できるようにした。これらの重要なスモールタンパク質を体系的に同定し、アノテーションを行うことで、研究者は生物学のこのエキサイティングな分野の理解を深めることができる。

 

webサーバー

計算済みの低分子量タンパク質のアノテーション(RefseqとHuman Microbiome Project - HMP)ダウンロードとユーザーゲノムの新規アノテーション、そして低分子量タンパク質の分析が可能になっている。

http://104.154.134.205:3838/DBsmORF/

f:id:kazumaxneo:20200807230525p:plain

 

ローカルでの使用

インストール

ubuntu18.04のpython3.7環境でテストした。

Github

pip install smorfinder

> smorf #紹介はhmmモデルがダウンロードされるため、help表示まで数分以上の時間がかかる。

smorf --help

$ smorf --help

Usage: smorf [OPTIONS] COMMAND [ARGS]...

 

  Command-line tool to predict and annotate small protein sequences in

  genomic sequencing data

 

Options:

  --help  Show this message and exit.

 

Commands:

  single  Run SmORFinder on a complete or draft genome assembly of a single

          species.

  meta    Run SmORFinder on a metagenomic assembly.

smorf single --help

$ smorf single --help

Usage: smorf single [OPTIONS] FASTA

 

  A click access point for the run module. This is used for creating the

  command line interface.

 

Options:

  -o, --outdir TEXT

  -pp, --prodigal-path PATH

  -shp, --dsn1-model-path PATH

  -shp, --dsn2-model-path PATH

  -shp, --smorf-hmm-path PATH

  -hp, --hmmsearch-path PATH

  --force / --no-force            Force overwriting of output directory.

  -idsn1, --dsn1-indiv-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN1 significance cutoff alone.

                                  Between 0 and 1, default=0.9999

  -idsn2, --dsn2-indiv-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN2 significance cutoff alone.

                                  Between 0 and 1, default=0.9999

  -iphmm, --phmm-indiv-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on pHMM significance cutoff alone.

                                  Between 0 and 1, default=1e-6

  -odsn1, --dsn1-overlap-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN1 significance if both other

                                  models meet their respective cutoffs.

                                  Between 0 and 1, default=0.5

  -odsn2, --dsn2-overlap-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN2 significance if both other

                                  models meet their respective cutoffs.

                                  Between 0 and 1, default=0.5

  -ophmm, --phmm-overlap-cutoff INTEGER

                                  Minimum cutoff necessary to keep prediction

                                  based on pHMM significance if both other

                                  models meet their respective cutoffs.

                                  Between 0 and 1, default=1

  --help                          Show this message and exit.

smorf meta --help

$ smorf meta --help

Usage: smorf meta [OPTIONS] FASTA

 

  A click access point for the run module. This is used for creating the

  command line interface.

 

Options:

  -o, --outdir TEXT

  -t, --threads INTEGER

  -pp, --prodigal-path PATH

  -shp, --dsn1-model-path PATH

  -shp, --dsn2-model-path PATH

  -shp, --smorf-hmm-path PATH

  -hp, --hmmsearch-path PATH

  --force / --no-force            Force overwriting of output directory.

  -idsn1, --dsn1-indiv-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN1 significance cutoff alone.

                                  Between 0 and 1, default=0.9999

  -idsn2, --dsn2-indiv-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN2 significance cutoff alone.

                                  Between 0 and 1, default=0.9999

  -iphmm, --phmm-indiv-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on pHMM significance cutoff alone.

                                  Between 0 and 1, default=1e-6

  -odsn1, --dsn1-overlap-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN1 significance if both other

                                  models meet their respective cutoffs.

                                  Between 0 and 1, default=0.5

  -odsn2, --dsn2-overlap-cutoff FLOAT

                                  Minimum cutoff necessary to keep prediction

                                  based on DSN2 significance if both other

                                  models meet their respective cutoffs.

                                  Between 0 and 1, default=0.5

  -ophmm, --phmm-overlap-cutoff INTEGER

                                  Minimum cutoff necessary to keep prediction

                                  based on pHMM significance if both other

                                  models meet their respective cutoffs.

                                  Between 0 and 1, default=1

  --help                          Show this message and exit.

 

 

実行方法

単離ゲノムのfastaファイルを指定する。

smorf single -t 12 -o outdir input_genome.fasta

 出力

f:id:kazumaxneo:20200807225425p:plain

small output.fa

f:id:kazumaxneo:20200807230148p:plain

メタゲノムのドラフトアセンブリを指定する。

smorf meta -t 12 -o outdir input_metagenome.fasta

 

引用

Automated prediction and annotation of small proteins in microbial genomes

Matthew G. Durrant, Ami S. Bhatt

bioRxiv, Posted July 28, 2020

 

関連