Sberroら(2019)が行った最近の研究により、ヒトマイクロバイオーム内に存在するスモールタンパク質の広大な未踏空間が明らかになった。現在のところ、これらの小さなオープンリーディングフレーム(smORF)は既存のリファレンスゲノムではアノテーションされておらず、標準的なゲノムアノテーションツールでは正確に予測することができない。本研究では、Sberroらによって同定されたものをもとにスモールタンパク質を予測するアノテーションツールSmORFinderを導入した。 このツールは、各スモールタンパク質ファミリーのプロファイル隠れマルコフモデル(pHMM)と、トレーニングセットでは見られないsmORFファミリーに対してより一般化する可能性のあるディープラーニングモデルを組み合わせたものである。pHMMとディープラーニングモデルの両方の予測を組み合わせることで、より正確なsmORF予測が可能となり、これらの予測されたsmORFはRibo-SeqまたはMetaRibo-Seq翻訳シグナルに富むことがわかった。特徴重要度解析により、ディープラーニングモデルは、Shine-Dalgarno配列を識別し、各コドンのウォブル位置を優先順位付けし、コドンテーブルで見つかったコドンの同義語に強く対応するようにコドンをグループ化することを学習したことが明らかになった。また、その中から、機能未知のコアとなる多くのsmORFを同定している。また、何千ものRefSeq単離ゲノムとHMPメタゲノムのスモールタンパク質アノテーションを事前に計算し、これらのデータをスモールタンパク質アノテーションと解析のための他の有用なツールとともにウェブポータルを通じて利用できるようにした。これらの重要なスモールタンパク質を体系的に同定し、アノテーションを行うことで、研究者は生物学のこのエキサイティングな分野の理解を深めることができる。
webサーバー
計算済みの低分子量タンパク質のアノテーション(RefseqとHuman Microbiome Project - HMP)ダウンロードとユーザーゲノムの新規アノテーション、そして低分子量タンパク質の分析が可能になっている。
http://104.154.134.205:3838/DBsmORF/
ローカルでの使用
インストール
ubuntu18.04のpython3.7環境でテストした。
pip install smorfinder
> smorf #紹介はhmmモデルがダウンロードされるため、help表示まで数分以上の時間がかかる。
> smorf --help
$ smorf --help
Usage: smorf [OPTIONS] COMMAND [ARGS]...
Command-line tool to predict and annotate small protein sequences in
genomic sequencing data
Options:
--help Show this message and exit.
Commands:
single Run SmORFinder on a complete or draft genome assembly of a single
species.
meta Run SmORFinder on a metagenomic assembly.
> smorf single --help
$ smorf single --help
Usage: smorf single [OPTIONS] FASTA
A click access point for the run module. This is used for creating the
command line interface.
Options:
-o, --outdir TEXT
-pp, --prodigal-path PATH
-shp, --dsn1-model-path PATH
-shp, --dsn2-model-path PATH
-shp, --smorf-hmm-path PATH
-hp, --hmmsearch-path PATH
--force / --no-force Force overwriting of output directory.
-idsn1, --dsn1-indiv-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN1 significance cutoff alone.
Between 0 and 1, default=0.9999
-idsn2, --dsn2-indiv-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN2 significance cutoff alone.
Between 0 and 1, default=0.9999
-iphmm, --phmm-indiv-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on pHMM significance cutoff alone.
Between 0 and 1, default=1e-6
-odsn1, --dsn1-overlap-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN1 significance if both other
models meet their respective cutoffs.
Between 0 and 1, default=0.5
-odsn2, --dsn2-overlap-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN2 significance if both other
models meet their respective cutoffs.
Between 0 and 1, default=0.5
-ophmm, --phmm-overlap-cutoff INTEGER
Minimum cutoff necessary to keep prediction
based on pHMM significance if both other
models meet their respective cutoffs.
Between 0 and 1, default=1
--help Show this message and exit.
> smorf meta --help
$ smorf meta --help
Usage: smorf meta [OPTIONS] FASTA
A click access point for the run module. This is used for creating the
command line interface.
Options:
-o, --outdir TEXT
-t, --threads INTEGER
-pp, --prodigal-path PATH
-shp, --dsn1-model-path PATH
-shp, --dsn2-model-path PATH
-shp, --smorf-hmm-path PATH
-hp, --hmmsearch-path PATH
--force / --no-force Force overwriting of output directory.
-idsn1, --dsn1-indiv-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN1 significance cutoff alone.
Between 0 and 1, default=0.9999
-idsn2, --dsn2-indiv-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN2 significance cutoff alone.
Between 0 and 1, default=0.9999
-iphmm, --phmm-indiv-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on pHMM significance cutoff alone.
Between 0 and 1, default=1e-6
-odsn1, --dsn1-overlap-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN1 significance if both other
models meet their respective cutoffs.
Between 0 and 1, default=0.5
-odsn2, --dsn2-overlap-cutoff FLOAT
Minimum cutoff necessary to keep prediction
based on DSN2 significance if both other
models meet their respective cutoffs.
Between 0 and 1, default=0.5
-ophmm, --phmm-overlap-cutoff INTEGER
Minimum cutoff necessary to keep prediction
based on pHMM significance if both other
models meet their respective cutoffs.
Between 0 and 1, default=1
--help Show this message and exit.
実行方法
単離ゲノムのfastaファイルを指定する。
smorf single -t 12 -o outdir input_genome.fasta
出力
small output.fa
メタゲノムのドラフトアセンブリを指定する。
smorf meta -t 12 -o outdir input_metagenome.fasta
引用
Automated prediction and annotation of small proteins in microbial genomes
Matthew G. Durrant, Ami S. Bhatt
bioRxiv, Posted July 28, 2020
関連