macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

AUGUSTUSの訓練と遺伝子予測のためのウェブサービス WebAUGUSTUS

2023/01/01 誤字修正

 

タンパク質をコードする遺伝子の予測は、新たにシークエンシングされアセンブルされたゲノムのアノテーションにおいて重要なステップである。AUGUSTUSは真核生物の遺伝子予測のための最も正確なツールの一つである。ここでは、AUGUSTUSの学習とAUGUSTUSによる遺伝子予測のためのウェブインタフェース、WebAUGUSTUSを紹介する。WebAUGUSTUS はユーザーのニーズに応じて、トレーニング用遺伝子構造を自動的に生成する。このステップでは、ゲノムファイルの他に、ESTタグのファイルまたはタンパク質配列のファイルのいずれかが必要である。また、外部で作成したトレーニング用遺伝子構造ファイルとゲノムファイルを提出することもできる。Webサービスでは、AUGUSTUSのパラメータを最適化し、そのパラメータで遺伝子を予測する。WebAUGUSTUS は http://bioinf.uni-greifswald.de/webaugustus で利用できる。

Tutorial

http://bioinf.uni-greifswald.de/webaugustus/predictiontutorial#param_id

 

webサービス

Bioinformatics Web Server - University of Greifswald

一番下のAUGUSTUS training submissionかAUGUSTUS prediction submissionをクリックする。旧AUGUSTUSウェブサーバー(Pubmed1, 2)へのリンクも残っている。こちらも遺伝子予測サービスを提供しているがトレーニングには対応していない。

 

 

training submission(*1)

新規ゲノムデータ用のAUGUSTUSパラメータをトレーニングするためのデータをサブミットする。パラメータが既にトレーニングされ、生物種概要の表で公開されているかどうかを確認する(link)。個人ヒトゲノムアセンブリは許可されていないことに注意。

メールアドレス、種名と(multi-)fasta形式のゲノムファイル(短くてユニークな、ホワイトスペースを含まないfastaヘッダー、DNA配列は80 文字の後に unix 形式で改行される形式)を指定する。最大100MB、250,000 scaffoldとなっている(gzip圧縮可)。cDNAファイル(*2)が提供された場合、まずこのcDNAファイルからヒントファイルが生成される。また、遺伝子構造の証拠を含むヒントファイルを gff 形式で提出することが可能。ヒントファイルは、遺伝子構造予測をサポートする外部証拠として使用される。ヒントはアライメントプログラムや情報資源(例:EST、RNA-seqデータ、ペプチド、タンパク質、...)から、適当と思われるものを自分で生成することができる。

cDNAファイルかヒントファイル、もしくは近縁種proteinどれか1つは提供する必要がある。最適な結果を得るためには、異なるファイルの組み合わせで何度もAUGUSTUSのトレーニングを開始するのではなく、1回のトレーニング実行で可能な限り多くの情報を指定する必要がある。ESTデータを所有している場合は、タンパク質配列ではなくESTの使用が推奨される。ESTを使うことで、UTRトレーニングセットを生成できる可能性が高いため。(マニュアルより)。

コメント;訓練にソフトマスクされた配列は使用しない。エラーになる。

 

 

AUGUSTUS prediction submission

リスト(link)にない生物は、(上記)トレーニング後に実行する。

ウェブサーバーで AUGUSTUS をトレーニングした場合、ジョブ確認メールに記載されているトレーニング実行のプロジェクト識別子(trainまたはpredに続く8桁の数字)を指定するだけでよい。試した時は新規生物種だったため、トレーニングを行い、その結果のparameters.tar.gzを指定した。また、その後のEVMのvalidaterスクリプトで重複フィーチャーエラーが起きたので、Allowed genee structuredの項目ではexactly one gene を選択した。

 

  • UTR予測について

UTR予測は、使用する生物種のUTRパラメータファイルが存在する場合にのみ可能。ある種のUTRパラメータファイルが存在する場合でも、それが種特異的であること、つまり、ターゲットとする種に対して実際に最適化されていることを確認する必要がある。一般的な(テンプレート)パラメータでUTRを予測するのは時間の無駄である。

UTRパラメータファイルが存在しないにもかかわらず、フォームでUTR予測を有効にした場合、WebサーバーアプリケーションはUTRを予測するという選択を、単にどのUTRも予測しないことで覆す。

デフォルトでは、AUGUSTUS はオルタナティブトランスクリプトを予測しない。

fewを選択すると、AUGUSTUSパラメータが設定され、比較的少数の代替転写産物が予測されるようになる。

  •  ストランド特異的予測

ストランドチェックボックスにチェックをつけると、AUGUSTUSは両鎖の遺伝子を予測する。チェックによって、順鎖(+)または逆鎖(-)の遺伝子のみを予測するようにもできる。

(マニュアルより)

 

コメント

空いている時はすぐにジョブが実行されますが、混雑している時もあります。例えば10日ほどジョブ待ちだった時もありますが、すぐにcomputingのステータスに入って数時間で結果が得られた時もありました(gzip圧縮で50MBのゲノム)。

引用

WebAUGUSTUS—a web service for training AUGUSTUS and predicting genes in eukaryotes 
Katharina J. Hoff, Mario Stanke
Nucleic Acids Research, Volume 41, Issue W1, 1 July 2013, Pages W123–W128

 

*1

AUGUSTUSはAb initio 遺伝子予測を行う。つまり、外部エビデンス(ESTやタンパク質アライメントなど)ではなく、コドン頻度やイントロン-エクソン長分布のような生物特有のゲノム情報をもとに数学的モデルを用いて遺伝子を同定し、そのイントロン-エクソン構造を決定する。 外部エビデンスを要求するEvidence-driven gene predictionな実装が低発現の遺伝子の予測を行えないことが多いのに対し、Ab initio 遺伝子予測は、発現していない遺伝子の予測も行えるのがメリットである。しかし新しいゲノムに適用するには、近縁な種のproteomeやcDNAで事前訓練されたパラメータファイルが必要になるのはデメリットになる。この訓練には非常に近縁な(closely related)生物種のものを使わないといけないが、近縁種であっても、エキソンーイントロン構造やコドン使用率が異なる事がある。よって対象の種自身の外部エビデンスを使って訓練するのが望ましい(このWebAUGUSTUSなら自身のゲノムからのcDNA(EST)を提供して訓練する)。AUGUSTUSに外部エビデンスは必須ではないが、このような背景から、外部エビデンスはあったほうが有利になる可能性はある。

Ab initio 遺伝子予測の実装は、Evidence-driven gene predictionとは異なり、基本的に最も可能性の高いコーディング配列を1つだけ見つけ、非翻訳領域(UTR)やオルタナティブスプライシングは報告しない(AUGUSTUSはUTR予測も任意で行えるが完全ではない)。その点を考慮し、Ab initio 遺伝子予測結果はEvidence-driven gene predictionな方法の結果と組み合わせ、精度の高い遺伝子モデルを構築していくワークフローの1ステップとして使う。

もう1つ忘れてはならないのは、基本的にゲノムサイズが大きいほど1つ1つの遺伝子サイズが大きくなるという傾向があることである(引用)(例;ヒトには多くのイントロンで分断された非常に長い遺伝子がある)。この傾向から、ゲノムサイズが大きいほど事前により連続性の高いゲノムアセンブリを構築しておかないと、より断片化された遺伝子が予測されるリスクが上がる傾向がある。ゲノムサイズが大きいほど様々な種類のリピート配列が増えアセンブルは難しくなる傾向があるので(N50などの基準で連続性が低くなる)、ゲノムサイズが大きい種ほど、遺伝子予測も難しくなるという悪循環が発生しやすい。一方で、ゲノムサイズが小さく遺伝子密度が高い種では、遺伝子予測の方法次第で隣接した遺伝子間が融合してしまった遺伝子モデルが出来やすい別のリスクもある。

品質の低い遺伝子モデルの氾濫は公共データベースにとって大きな問題である。遺伝子予測の難しさを研究者が危惧してかどうかは分からないが、3大データベースには、ゲノムアセンブリのみが登録され、アノテーション結果は登録されていない真核生物種のゲノムデータがたくさん見つかる(主観では半分以上)。生物学の研究ではゲノムを決める動機はどんな遺伝子があるか調べることにあり、それを放棄しているのは奇妙に聞こえるかもしれないが、そのようなゲノムプロジェクトも、1)自前のHPでのみアノテーションを公開しているか、2)水面下で時間をかけて現在も遺伝子予測を実行中であるか(キュレーションすると長い時間がかかる)、3)遺伝子予測結果はオフラインでラボメンのみが使用している、などの可能性がある。

 

*2

気軽に使用できる例として、近縁のモデル生物のcDNAファイルを上げることができるが、あらゆる形態のエビデンスの中で、対象それ自身の種のRNA-seq データが
遺伝子アノテーションの精度を向上させる可能性が最も高い。short readのRNA seqをヒントに使うなら、RNA seqのリードをTrinityなどでアセンブルし、TransDecorderでタンパク質をコードしている配列を探索し(raw assemblyにはnon-codingやstart-endを含まない断片化されたcDNA配列がある)、それを提供することが度々ある。