macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GenBankから配列やアノテーションを取り出すWebサービス FeatureExtract

 

 イントロン/エクソン構造、プロモーター領域の内容、上流域および下流域における他の遺伝子の位置など、DNA配列の特徴のアノテーションに簡単にアクセスできることは、多くの生物学的問題に取り組むことが非常に有益である。たとえば、遺伝子内のイントロンの配置を考慮すると、相同な遺伝子の系統解析に役立つ。 PCRまたはDNAマイクロアレイを使用してUTR領域を調査するための実験を設計するには、UTR領域の既知のエレメントと染色体上の他の遺伝子の位置とストランドの情報が必要である。このような情報は、GenBankNCBI Human Genome buildsなどのデータベースに豊富に記録され、文書化されている。ただし、この情報にアクセスするには、通常、かなりのバイオインフォマティクススキルとデータ形式の詳細な知識が必要になる。ここでは、GenBankエントリから機能アノテーションを抽出するための非常に柔軟で使いやすいツールを紹介する。このツールは、特定の機能(プロモーターなど)に対応するデータセットの抽出にも役立つ。最も重要なことは、出力データ形式が一貫しており、ユーザーにとって扱いやすく、計算的に解析しやすいことである。 FeatureExtract Webサーバーは、http://www.cbs.dtu.dk/services/FeatureExtract/でアカデミックおよび商用の両方で自由に利用できる。

 

 

使い方

http://www.cbs.dtu.dk/services/FeatureExtract/にアクセスする。

f:id:kazumaxneo:20191124142556p:plain

 

ここではexampleのGenBankファイルを使う。default条件でsubmit。

f:id:kazumaxneo:20191124143718p:plain

 

結果

エントリーの数、intronを含むエントリーの数、トータルサイズ(bp)などがまとめられる。

f:id:kazumaxneo:20191124143828p:plain

 

fasta形式のファイルとしてダウンロードできる。

f:id:kazumaxneo:20191124144059p:plain

 

submit前にカスタマイズすることもできる。

defaultではCDS フィーチャが対象になる。geneやrRNAなどに変更可能。

f:id:kazumaxneo:20191124144951p:plain

 

GenBankのfullバージョンならフィーチャの隣接領域も取り出せる。

f:id:kazumaxneo:20191124150428p:plain

 

隣接領域は小文字になる。

f:id:kazumaxneo:20191124150633p:plain

 

 

補足

SMSのwebツールでもGenBank => fastA変換が利用できます。SMSにはEMBL formatからのアノテーション抽出ルールなどもあります。

https://www.bioinformatics.org/sms2/genbank_fasta.html

 

Sequence format converterというツールもあります。

Sequence format converter

f:id:kazumaxneo:20191124145909p:plain

こちらも様々な出力に対応。

引用

FeatureExtract—extraction of sequence annotation made easy
Rasmus Wernersson
Nucleic Acids Research, Volume 33, Issue suppl_2, 1 July 2005, Pages W567–W569,