イントロン/エクソン構造、プロモーター領域の内容、上流域および下流域における他の遺伝子の位置など、DNA配列の特徴のアノテーションに簡単にアクセスできることは、多くの生物学的問題に取り組むことが非常に有益である。たとえば、遺伝子内のイントロンの配置を考慮すると、相同な遺伝子の系統解析に役立つ。 PCRまたはDNAマイクロアレイを使用してUTR領域を調査するための実験を設計するには、UTR領域の既知のエレメントと染色体上の他の遺伝子の位置とストランドの情報が必要である。このような情報は、GenBankやNCBI Human Genome buildsなどのデータベースに豊富に記録され、文書化されている。ただし、この情報にアクセスするには、通常、かなりのバイオインフォマティクススキルとデータ形式の詳細な知識が必要になる。ここでは、GenBankエントリから機能アノテーションを抽出するための非常に柔軟で使いやすいツールを紹介する。このツールは、特定の機能(プロモーターなど)に対応するデータセットの抽出にも役立つ。最も重要なことは、出力データ形式が一貫しており、ユーザーにとって扱いやすく、計算的に解析しやすいことである。 FeatureExtract Webサーバーは、http://www.cbs.dtu.dk/services/FeatureExtract/でアカデミックおよび商用の両方で自由に利用できる。
使い方
http://www.cbs.dtu.dk/services/FeatureExtract/にアクセスする。
ここではexampleのGenBankファイルを使う。default条件でsubmit。
結果
エントリーの数、intronを含むエントリーの数、トータルサイズ(bp)などがまとめられる。
fasta形式のファイルとしてダウンロードできる。
submit前にカスタマイズすることもできる。
defaultではCDS フィーチャが対象になる。geneやrRNAなどに変更可能。
GenBankのfullバージョンならフィーチャの隣接領域も取り出せる。
隣接領域は小文字になる。
補足
SMSのwebツールでもGenBank => fastA変換が利用できます。SMSにはEMBL formatからのアノテーション抽出ルールなどもあります。
https://www.bioinformatics.org/sms2/genbank_fasta.html
Sequence format converterというツールもあります。
こちらも様々な出力に対応。
引用
FeatureExtract—extraction of sequence annotation made easy
Rasmus Wernersson
Nucleic Acids Research, Volume 33, Issue suppl_2, 1 July 2005, Pages W567–W569,