macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

真核生物ゲノムのコアプロモーターの予測を行う TSSfinder

 

 プロモーターのアノテーションは、ゲノムを解析する上で重要な作業である。このタスクの主な課題の一つは、プロモーター領域と遺伝子の転写領域の境界である転写開始点(TSS)の位置を特定することである。TSSは、転写複合体の組み立てを担うDNA配列を特定するための基準点である。同じ遺伝子でも複数のTSSを持つことがあるので、プロモーター領域を区切るためには、翻訳開始部位に最も近いTSSを探すことが重要になる。本論文では、真核生物の遺伝子のTSSシグナルを予測するための新しいソフトウェアTSSFinderを紹介する。現在、6種類の真核生物に対して事前に学習されたモデルを提供する唯一のアプリケーションである: Arabidopsis thaliana, Drosophila melanogaster, Gallus gallus, Homo sapiens, Oryza sativa そしてSaccharomyces cerevisiae。さらに、TSSシグナルと対応するゲノム上の位置が確認された125個のDNA配列をトレーニングセットとして使用することで、特定の生物に合わせてソフトウェアを簡単にカスタマイズすることができる。TSSFinderのソースコードとDockerコンテナは、http://tssfinder.github.io からダウンロードできる。また,TSSFinderはWebサービスとして http://sucest-fun.org/wsapp/tssfinder/ で利用できる。

 

Documentation

https://tssfinder.github.io/documentation.html

 

Download

https://tssfinder.github.io/download.html

大量のデータを処理する必要がある場合はローカルコンピュータにインストールする。Ubuntu Linux用のソースコードがこのDownloadから入手できる。また。Dockerコンテナも用意されている。

 

webサービス

http://sucest-fun.org/wsapp/tssfinder/にアクセスする。

f:id:kazumaxneo:20210704222832p:plain

 

Organism Modelを指定し、 ゲノム領域を含むmulti-fasta配列ファイルをアップロードする。

f:id:kazumaxneo:20210704223002p:plain

Fastaファイルは、染色体全体であったり、各標的遺伝子の上流3kbpなど。各fasta配列のヘッダ名がその配列の名前になる。

開始コドンの位置を記載したBED6ファイル(最大150)も必要になる。アップロードする。

f:id:kazumaxneo:20210704223244p:plain

TSSFinderは、遺伝子の開始コドンに最も近いTSSを検索する。検索対象は,BEDで指定した開始コドンの位置から上流2000ntの領域に限定される。BED6フォーマットについてはHPのFILE FORMATSの部分で説明されている。

 

出力はout.tss.bedとout.tata.bedになる。これらのファイルには、TSSシグナルとCoreプロモーター領域の主な特徴が格納されている。

引用

TSSFinder-fast and accurate ab initio prediction of the core promoter in eukaryotic genomes
Mauro de Medeiros Oliveira, Igor Bonadio, Alicia Lie de Melo, Glaucia Mendes Souza, Alan Mitchell Durham

Brief Bioinform. 2021 May 28;bbab198