2019 8/17 タイトル修正 、tips追記
ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベースの数を考慮すると、手間と時間がかかる。生物学的分析は、遺伝子機能ディクショナリとして広く使用されているGene Ontology(GO)データベースを介した functional annotation によって行われる。また、UniProt、InterPro、KEGG、Pfam、NCBI、SEEDなどの複数のデータベースを統合して、データ機能を強化することは非常に一般的である。
アノテーションプロセスには、Blast2GO、AmiGO、GOrilla、REVIGO、QuickGO、NaviGOなどの多くのツールを使用できる。ただし、これらのツールには制限がある。a)すべてが完全に自由に利用できるわけではない。 b)インストール、構成、およびコマンドラインが複雑である。 c)視覚的インターフェースの欠如; d)分析のための制限された容量またはシーケンス番号の制限e)結果を共有およびエクスポートすることが困難。これらの問題に対処するために、配列相同性検索に基づくfunctional annotationとゲノムおよびトランスクリプトームデータの強化のための無料のオンラインで使いやすいプラットフォームであるGO FEATを開発し、下流の分析に役立つ表、GOチャートおよびグラフを出力し、ユーザーが結果を異なる出力形式にエクスポートしてレポートを生成できるようにした。
GO FEATは、バックエンドプログラミング言語としてPHPを使って開発されている。 HTML5、CSS3、およびJavaScriptはフロントエンドプログラミング言語として使用され、PERLはリモート接続スクリプトに適合している。ツールのレコードを保存するために、MySQL RDBMSを使用した。すべてのリモート呼び出しは、パブリックREST API(EMBL-EBIのBlastのパブリックAPI、データベース統合のUniProt、オントロジーのQuickGO、SEEDのSEEDのパブリックAPI)によって行われる。ユーザーは、他のユーザーとデータを共有し、データをいくつかの形式にエクスポートし、Gene Ontologyチャート(一般およびオントロジーのタイプ別)を生成できる。
GO FEATは、プロジェクトが登録または割り当てられると、multi-fastaファイル(ヌクレオチドまたはタンパク質)を入力として受け取る。パイプライン(図1)は、ユーザーが定義したE valueでの相同性検索に進み、パブリックデータベースを使用してホモログにアノテーションを付ける。送信後、各シーケンスは処理ラインのキューに入れられる。処理は、EMBL-EBIパブリックAPIまたはローカルDIAMONDアライナーを使用するリモートBLASTで開始される。 GO FEATは、検索する配列のタイプ(ヌクレオチドまたはタンパク質)を自動的に識別し、特定のプログラムを実行する:ヌクレオチド配列の場合はBLASTx、タンパク質配列の場合はBLASTp。次のステップは、UniProtパブリックAPIを介したUniProt、NCBIタンパク質、KEGG、InterPro、PfamおよびGene OntologyデータベースとSEEDパブリックAPIを介したSEEDデータベースへのアライメントの結果を統合することである。統合後、結果が処理されてグラフ、チャート、および表に表示され、分析が簡素化される。 EBIサーバーは要求の数を一度に30に制限するため、サーバーのリソースを最適化するためにキュー制御パラメーターが開発された。シーケンスが100以下のプロジェクトの場合、リソースは最大10ユーザーに同時に動的に割り当てられる(各プロジェクトに3つのリクエスト)。リソースが利用可能な場合、プロジェクトは3つ以上のリクエストを受け取ることができる。 100シーケンスを超えるプロジェクトは、一度に500シーケンスのバッチを処理するDIAMONDを使用して、ローカルアライメントのキューに入れらえる。これにより、サーバーのリソース使用量が最適化され、より多くのシーケンスを同時に処理できる。
使い方
ランにはde novoアセンブリやリファエンスゲノムの転写領域から作成したmulti-fastaが必要。
http://computationalbiology.ufpa.br/gofeat/ にアクセスする。
初回はユーザー登録する。
画面の指示に従って作業を進める。プロジェクト名を指定する。ここではC.elegansのデータを使っているのでCelegansとした。
アセンブルして得たmulti-fastaファイルを指定する。
blastのE valueを指定する。Submitを押してジョブをスタートさせる。
結果
アサインされたGOをクリックするとGO gtaphにジャンプする。quickGOが使われている。
このグラフはGO:0009088 - threonine biosynthetic processになる。
アサインされたキーは全てそれぞれのデータベースとリンクしている。
結果はCSVとしてダウンロードできる。Export~をクリックする。
fasta配列数が多すぎるとランに失敗することがあるようです。その時は配列を分割して再挑戦してみてください。
追記
ダウンロードしたCSVファイルの変換。
CSV => TSV
tr "," "\t" < input.csv > output
引用
GO FEAT: a rapid web-based functional annotation tool for genomic and transcriptomic data
Fabricio Almeida Araujo, Debmalya Barh, Artur Silva, Luis Guimarães & Rommel Thiago Juca Ramos
Scientific Reports volume 8, Article number: 1794 (2018)
関連