macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

真核生物ゲノムのアノテーションを行うwebサービス MOSGA

 

 近年のシーケンシング技術の進歩により、大規模な真核生物ゲノムであっても高品質のアセンブリを生成することは、多くの生物学者にとって日常的な作業となっている。しかし、このようなアセンブリアノテーションは、関心のある生物の生物学的性質を解明するための重要なステップであるが、高度なバイオインフォマティクスの専門知識を必要とする場合が多く、複雑な課題となっている。
 ここでは、真核生物ゲノムのアノテーションフレームワークであるMOSGAを紹介する。また、その結果は、完全に統合されたゲノムブラウザで解析することができ、NCBIにサブミットできるフォーマットで提供されている。MOSGAは、ポータブルでカスタマイズ可能なSnakemakeバックエンド上に構築されているため、幅広いユーザーやプロジェクトに合わせてカスタマイズすることができる。
 MOSGAをWebサービスとして https://mosga.mathematik.uni-marburg.de に、dockerコンテナとして registry.gitlab.com/mosga/mosga: latest に提供している。ソースコードhttps://gitlab.com/mosga/mosga にある。

 

GitLab

#サイズが15.4GBと大きいので注意(初回ランではデータベース(トータル80GB)のダウンロードも行われる) テストはしていない
docker pull registry.gitlab.com/mosga/mosga:latest
docker run --publish 8000:80 --detach --name mosga registry.gitlab.com/mosga/mosga:latest

ゲノムサイズが大きいならユーザーが使っている計算機(ローカルマシン)で実行することが推奨される。

 

 

webサービス

https://mosga.mathematik.uni-marburg.de にアクセスする。

f:id:kazumaxneo:20201204000815p:plain

16スレッドのAMD Zenプロセッサーと32 GBメモリのマシンでホストされている。データは14日で消去される。48時間以上かかるジョブは削除される可能性がある。

 

genomeのFASTAファイルをアップロードする。アップロードするデータは200MB以内が強く推奨されている。

 

Gene prediction tool、Repeats、とrRNAsのアノテーションツールを指定する。

f:id:kazumaxneo:20201204205136p:plain

 

ツールの右のsettingをクリックするとhintファイルの種など重要なパラメータを変更できる。必ず確認すること。

f:id:kazumaxneo:20201204205144p:plain


 

g:Profilerで機能解析も可能(デフォルトではOFF)

f:id:kazumaxneo:20201204205426p:plain

 

よく設定を確認してサブミットする。

 

 

テスト時はペンディング1となった。your jobをクリックすると、

f:id:kazumaxneo:20201204003126p:plain現在のジョブの推定残り時間が表示され、自分のジョブのラン開始までの目安を知ることができる。

f:id:kazumaxneo:20201204003243p:plain

右端のPipeline graphをクリックするとパイプラインのフローを確認できる。

f:id:kazumaxneo:20201204004327p:plain

 

 出力

f:id:kazumaxneo:20201205004213p:plain

 

JBrowseに対応しており、アノテーション結果をオンラインで確認できる。

f:id:kazumaxneo:20201205004233p:plain

 

Detailから各ファイルをダウンロードできる。

f:id:kazumaxneo:20201205004359p:plain

 

Organelle Scan

f:id:kazumaxneo:20201205004837p:plain
 

引用

MOSGA: Modular Open-Source Genome Annotator
Roman Martin, Thomas Hackl, Georges Hattab, Matthias G Fischer, Dominik Heider
Bioinformatics, Published: 01 December 2020