近年のシーケンシング技術の進歩により、大規模な真核生物ゲノムであっても高品質のアセンブリを生成することは、多くの生物学者にとって日常的な作業となっている。しかし、このようなアセンブリのアノテーションは、関心のある生物の生物学的性質を解明するための重要なステップであるが、高度なバイオインフォマティクスの専門知識を必要とする場合が多く、複雑な課題となっている。
ここでは、真核生物ゲノムのアノテーションフレームワークであるMOSGAを紹介する。また、その結果は、完全に統合されたゲノムブラウザで解析することができ、NCBIにサブミットできるフォーマットで提供されている。MOSGAは、ポータブルでカスタマイズ可能なSnakemakeバックエンド上に構築されているため、幅広いユーザーやプロジェクトに合わせてカスタマイズすることができる。
MOSGAをWebサービスとして https://mosga.mathematik.uni-marburg.de に、dockerコンテナとして registry.gitlab.com/mosga/mosga: latest に提供している。ソースコードは https://gitlab.com/mosga/mosga にある。
GitLab
#サイズが15.4GBと大きいので注意(初回ランではデータベース(トータル80GB)のダウンロードも行われる) テストはしていない
docker pull registry.gitlab.com/mosga/mosga:latest
docker run --publish 8000:80 --detach --name mosga registry.gitlab.com/mosga/mosga:latest
ゲノムサイズが大きいならユーザーが使っている計算機(ローカルマシン)で実行することが推奨される。
https://mosga.mathematik.uni-marburg.de にアクセスする。
16スレッドのAMD Zenプロセッサーと32 GBメモリのマシンでホストされている。データは14日で消去される。48時間以上かかるジョブは削除される可能性がある。
genomeのFASTAファイルをアップロードする。アップロードするデータは200MB以内が強く推奨されている。
Gene prediction tool、Repeats、とrRNAsのアノテーションツールを指定する。
ツールの右のsettingをクリックするとhintファイルの種など重要なパラメータを変更できる。必ず確認すること。
g:Profilerで機能解析も可能(デフォルトではOFF)
よく設定を確認してサブミットする。
テスト時はペンディング1となった。your jobをクリックすると、
現在のジョブの推定残り時間が表示され、自分のジョブのラン開始までの目安を知ることができる。
右端のPipeline graphをクリックするとパイプラインのフローを確認できる。
出力
JBrowseに対応しており、アノテーション結果をオンラインで確認できる。
Detailから各ファイルをダウンロードできる。
Organelle Scan
引用
MOSGA: Modular Open-Source Genome Annotator
Roman Martin, Thomas Hackl, Georges Hattab, Matthias G Fischer, Dominik Heider
Bioinformatics, Published: 01 December 2020