macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Functional annotationを行うwebサーバー GO FEAT

 2019 8/17 タイトル修正 、tips追記

 

 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベースの数を考慮すると、手間と時間がかかる。生物学的分析は、遺伝子機能ディクショナリとして広く使用されているGene Ontology(GO)データベースを介した functional annotation によって行われる。また、UniProt、InterPro、KEGG、Pfam、NCBI、SEEDなどの複数のデータベースを統合して、データ機能を強化することは非常に一般的である。

 アノテーションプロセスには、Blast2GO、AmiGO、GOrilla、REVIGO、QuickGO、NaviGOなどの多くのツールを使用できる。ただし、これらのツールには制限がある。a)すべてが完全に自由に利用できるわけではない。 b)インストール、構成、およびコマンドラインが複雑である。 c)視覚的インターフェースの欠如; d)分析のための制限された容量またはシーケンス番号の制限e)結果を共有およびエクスポートすることが困難。これらの問題に対処するために、配列相同性検索に基づくfunctional annotationとゲノムおよびトランスクリプトームデータの強化のための無料のオンラインで使いやすいプラットフォームであるGO FEATを開発し、下流の分析に役立つ表、GOチャートおよびグラフを出力し、ユーザーが結果を異なる出力形式にエクスポートしてレポートを生成できるようにした。

 GO FEATは、バックエンドプログラミング言語としてPHPを使って開発されている。 HTML5、CSS3、およびJavaScriptはフロントエンドプログラミング言語として使用され、PERLはリモート接続スクリプトに適合している。ツールのレコードを保存するために、MySQL RDBMSを使用した。すべてのリモート呼び出しは、パブリックREST API(EMBL-EBIのBlastのパブリックAPI、データベース統合のUniProt、オントロジーのQuickGO、SEEDのSEEDのパブリックAPI)によって行われる。ユーザーは、他のユーザーとデータを共有し、データをいくつかの形式にエクスポートし、Gene Ontologyチャート(一般およびオントロジーのタイプ別)を生成できる。

GO FEATは、プロジェクトが登録または割り当てられると、multi-fastaファイル(ヌクレオチドまたはタンパク質)を入力として受け取る。パイプライン(図1)は、ユーザーが定義したE valueでの相同性検索に進み、パブリックデータベースを使用してホモログにアノテーションを付ける。送信後、各シーケンスは処理ラインのキューに入れられる。処理は、EMBL-EBIパブリックAPIまたはローカルDIAMONDアライナーを使用するリモートBLASTで開始される。 GO FEATは、検索する配列のタイプ(ヌクレオチドまたはタンパク質)を自動的に識別し、特定のプログラムを実行する:ヌクレオチド配列の場合はBLASTx、タンパク質配列の場合はBLASTp。次のステップは、UniProtパブリックAPIを介したUniProt、NCBIタンパク質、KEGG、InterPro、PfamおよびGene OntologyデータベースとSEEDパブリックAPIを介したSEEDデータベースへのアライメントの結果を統合することである。統合後、結果が処理されてグラフ、チャート、および表に表示され、分析が簡素化される。 EBIサーバーは要求の数を一度に30に制限するため、サーバーのリソースを最適化するためにキュー制御パラメーターが開発された。シーケンスが100以下のプロジェクトの場合、リソースは最大10ユーザーに同時に動的に割り当てられる(各プロジェクトに3つのリクエスト)。リソースが利用可能な場合、プロジェクトは3つ以上のリクエストを受け取ることができる。 100シーケンスを超えるプロジェクトは、一度に500シーケンスのバッチを処理するDIAMONDを使用して、ローカルアライメントのキューに入れらえる。これにより、サーバーのリソース使用量が最適化され、より多くのシーケンスを同時に処理できる。

 

Github

 

 

使い方

ランにはde novoアセンブリやリファエンスゲノムの転写領域から作成したmulti-fastaが必要。

 

http://computationalbiology.ufpa.br/gofeat/ にアクセスする。

f:id:kazumaxneo:20190816195346p:plain

初回はユーザー登録する。

 

画面の指示に従って作業を進める。プロジェクト名を指定する。ここではC.elegansのデータを使っているのでCelegansとした。

f:id:kazumaxneo:20190816201027p:plain

 

アセンブルして得たmulti-fastaファイルを指定する。

f:id:kazumaxneo:20190816201307p:plain

 

blastのE valueを指定する。Submitを押してジョブをスタートさせる。

f:id:kazumaxneo:20190816201312p:plain

 

結果

f:id:kazumaxneo:20190816200648p:plain

 

アサインされたGOをクリックするとGO gtaphにジャンプする。quickGOが使われている。

f:id:kazumaxneo:20190816202602p:plain

このグラフはGO:0009088 - threonine biosynthetic processになる。

f:id:kazumaxneo:20190816202610p:plain

 

アサインされたキーは全てそれぞれのデータベースとリンクしている。f:id:kazumaxneo:20190816202737p:plain

 

結果はCSVとしてダウンロードできる。Export~をクリックする。

f:id:kazumaxneo:20190816200644p:plain

 

fasta配列数が多すぎるとランに失敗することがあるようです。その時は配列を分割して再挑戦してみてください。

 

追記

ダウンロードしたCSVファイルの変換。

CSV => TSV

tr "," "\t" < input.csv > output

引用

GO FEAT: a rapid web-based functional annotation tool for genomic and transcriptomic data

Fabricio Almeida Araujo, Debmalya Barh, Artur Silva, Luis Guimarães & Rommel Thiago Juca Ramos

Scientific Reports volume 8, Article number: 1794 (2018)

 

関連