macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

真核生物のゲノムプロジェクトにおいて共同研究者と共にアノテーションを効率的に進めるためのwebサービス GenSAS

2020 1/9 タイトル修正

2020 7/19 追記

2020 7/23 追記

 

 Genome Sequence Annotation Server(GenSAS、https://www.gensas.org)は、構造的および機能的アノテーション、および手動キュレーションのための安全なWebベースのゲノムアノテーションプラットフォームである。 GenSASは、ユーザーによるインストールを必要とせず、一般的なコマンドラインベースのアノテーションツールを単一の使いやすいオンラインインターフェイスに統合する。 GenSASはJBrowseとApolloを統合しているため、ユーザーはアノテーションデータを表示し、遺伝子モデルを手動でキュレートできる。埋め込まれた指示とより詳細なGenSASユーザーガイドにより、はアノテーションプロセスを段階的に、ユーザーにガイドする。ゲノムアセンブリファイルに加えて、ユーザーはアノテーションプロセスで使用するために、生物固有の転写産物、タンパク質、およびRNAシーケンスのエビデンスをアップロードすることもできる。 NCBI RefSeq転写産物およびタンパク質データベースの最新バージョンと、SwissProtおよびTrEMBLタンパク質データベースがすべてのユーザーに提供されている。 GenSASプロジェクトを他のGenSASユーザーと共有して、共同アノテーションを有効にすることができる。アノテーションが完了すると、GenSASはアノテーション付き遺伝子モデルの最終ファイルを一般的なファイル形式で生成し、他のアノテーションツールで使用したり、リポジトリに投稿したり、publicationsで使用したりできる。

 

Available Tools

https://www.gensas.org/tools

 

GenSAS tutorial Jan 2015

 

注意

GenSASはchromosomeレベルのアセンブリを期待しているため、ショートリードから得たcontig配列などでは動作しません(長い配列だけ取り出せば可能)。注意して下さい。

 

アノテーションreadyなgenome配列であるかどうかがもっとも重要になります。

https://f1000research.com/articles/7-148あたりを読んで、十分な品質のデータになっているか確認して下さい。

 

webサービス

https://www.gensas.orgにアクセスする。

f:id:kazumaxneo:20200109015710p:plain

初回はユーザー登録が必要。アカウント申請してから、連絡が来るでしばらくかかる。アカウント申請時はどのようなゲノムプロジェクトなのか、種名などを記載する必要がある。

 

ログインしてプロジェクトページにアクセスする。

f:id:kazumaxneo:20200109015639p:plain

 左から右のタブに順番に進めるようになっている。

  

配列を決定したゲノム配列をアップロードする。Sequecneタブを選択。

f:id:kazumaxneo:20200109120439p:plain

配列のタイプを選択する。

f:id:kazumaxneo:20200109120444p:plain

 

f:id:kazumaxneo:20200109120819p:plain

アセンブリバージョンも指定する。

f:id:kazumaxneo:20200109121252p:plain

 

配列をアップロードし終えたら、processingジョブがスタートする。終わるまでしばらく時間がかかる。

f:id:kazumaxneo:20200109121924p:plain

完了した。

 

projectタブに進む。Begin a new projectをクリックし、プロジェクトの詳細を記載していく。

f:id:kazumaxneo:20200109121837p:plain

 

GFF3 

すでに予測済みの遺伝子情報、RNA seqから取得した転写領域情報があれば、GFF3形式でアップロードする。それ以外の例えばrepetitive regionのGFF3などがあれば、それらもアップロードできる。

f:id:kazumaxneo:20200109233427p:plain

 

Evidence

自身の種のESTや完全長cDNAデータがあったり、closely relatedな種のタンパク質情報があるなら指定する。アラインして使用される。

f:id:kazumaxneo:20200109233113p:plain

 

Rpeats

複雑性の低い配列や反復配列をNでマスクする。

f:id:kazumaxneo:20200109233123p:plain

パラメータを指定して実行する。

f:id:kazumaxneo:20200109233135p:plain

Repeat options

f:id:kazumaxneo:20200109233140p:plain

Masking

Repeat Maskerのジョブが終わったら、このタブでマスクを実行する。

f:id:kazumaxneo:20200109233155p:plain

 

Align

既存のデータベースのタンパク質配列やRNA seqデータアラインメントする。

f:id:kazumaxneo:20200109234748p:plain

BLAST、BLAT、PASAを使ってNCBI nrのcDNAをアラインする。

f:id:kazumaxneo:20200109234755p:plain

f:id:kazumaxneo:20200109234836p:plain

f:id:kazumaxneo:20200109235218p:plain

またはTophatやHISAT2を使ってRNA seqデータをマッピングする。

f:id:kazumaxneo:20200109233226p:plain

HISAT2はSRAのデータを直接使用することもできる。

f:id:kazumaxneo:20200109235318p:plain

 

Structural

ab initioの遺伝子予測。全てのプログラムを走らせる。

f:id:kazumaxneo:20200110001126p:plain

 

Consensus

予測結果について、EvidenceModelerを使ってコンセンサスセットを作成する。

f:id:kazumaxneo:20200110001226p:plain


OGS

f:id:kazumaxneo:20200110002207p:plain

 

ラン中のjobや終わったjobは右端にまとめられる。また登録したメールアドレスにjob完了のメールが届くようになっている。

f:id:kazumaxneo:20200110104024p:plain

クリックすると別のタブで開かれる。
f:id:kazumaxneo:20200110104209p:plain

この右のジョブリンクをクリックすることで、ジョブ結果を見たり、各ファイルをダウンロードできる。

 

また、そのジョブそのものを消すことができる。クリックして開いてDelete this jobsを選択。

f:id:kazumaxneo:20200719194223p:plain

 

 

最後にpublishボタンを押す事でpublishingのジョブが開始される。

f:id:kazumaxneo:20200724161058p:plain

 

引用

Structural and Functional Annotation of Eukaryotic Genomes with GenSAS
Humann JL, Lee T, Ficklin S, Main D

Methods Mol Biol. 2019;1962:29-51

 

関連