真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

　利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解析を含むMOSGA 2がどのように開発されたかを示す。ゲノムデータの品質はアノテーションの品質に大きく影響するため、ユーザーから提出されたゲノムアセンブリを検証し、品質を保証するためのツールを複数搭載した。さらに、比較ゲノムの統合により、ユーザーは複数のゲノムデータセットを同時に解析することで、より広いゲノムビューの恩恵を受けることができる。さらに、MOSGA 2の新機能を様々なユースケースと実用例で紹介する。MOSGA 2は、すでに確立されたアプリケーションをゲノムデータの品質管理に拡張し、系統学など、より大きな文脈で複数のゲノムを統合して解析するために使用できる。

GitLab wiki

https://gitlab.com/mosga/mosga/-/wikis/home

新しい機能（論文より再構成）

遺伝子予測 - BRAKER 2を用いてタンパク質コード遺伝子を予測する2つの新しいワークフローを組み込んだ。
アノテーション品質チェック - MOSGAでは、NCBIのtbl2asnによってアノテーションが検証される。MOSGA2では、NCBIとの互換性を向上させる複数のフィルターを追加挿入した。これには、エクソン、イントロンの推奨サイズ、およびタンパク質コード配列の完全性をチェックする追加フィルターがあり、内部ストップコドン、正しいスタートコドンおよびストップコドンのチェックが含まれる。
既存のアノテーションの統合 - MOSGA 2は、既存のゲノムアノテーションをGenBankフラットフォーマット（GBFF）でインポートでき、既存のアノテーションと追加予測ツールの出力を組み合わせたり、洗練させたりできる。GBFF ファイルはアノテーション作業に限らず、比較ゲノム作業や異なるファイルフォーマットの混在にも使用できる。
オルガネラ DNAスキャン - MOSGAは核コードDNA配列のアノテーションに最適化されているが、オルガネラDNAを同定するために、GC-content、オルガネラデータベースの情報、barrnapやtRNAscan-SE 2.0などのRNA予測ツールを組み合わせている。
ゲノムの完全性 - BUSCOとEukCCを用いてアセンブリの完全性を推定する。各ゲノムの完全性の結果は、比較ゲノムワークフローとアノテーションワークフローで別々にまとめて可視化される。
コンタミネーション検出 - 他の生物からの配列や残存する配列アダプターなど、ゲノムアセンブリに潜在する汚染を検出するために、BlobToolsとNCBIのVecScreenを統合している。
外部アプリケーションインターフェース - 確立された外部ツールへのAPIを導入した。これには機能的エンリッチメント解析のためのg:Profiler g:GOST、 Integrated Interactions Database 、タンパク質-タンパク質相互作用解析のためのSTRINGデータベースの3つがある。アノテーションモードで複数のAPIを有効にし、その結果をジョブ投入に戻すことにより、機能アノテーションから予測されるタンパク質識別子をこれらのツールに投入することができる。
系統解析 - BUSCOとEukCCを用いてゲノム中のシングルコピー遺伝子を同定し、系統樹の計算を行う。BUSCOのデータソースはOrthoDBであるのに対し、EukCCはPANTHERに依存している。
ゲノム配列の類似性の比較 - FastANIにより全ゲノムのAverage Nucleotide Identity（ANI）を計算してゲノムを相互に比較する。
タンパク質コード遺伝子の比較 - アップロードされたすべてのゲノムのタンパク質コード化遺伝子を比較する。例えば、異なる遺伝子予測ツール間の比較や、参照アノテーションと実験アノテーション間の比較を行うことができる。この方法は、タンパク質をコードする遺伝子の塩基配列を比較するもので、Average Amino Acids Identity の概念と類似している。結果はヒートマップとして表示される。

webサービス

https://mosga.mathematik.uni-marburg.de/にアクセスする。

１、Annotation

fasta形式のゲノムアセンブリファイルを指定する。

2行目には生物種を指定する。

f:id:kazumaxneo:20211219200110p:plain

MOSGAのアノテーションジョブにおいて、複数のユーザーが与えられたデータに対して最適な遺伝子予測モデルを選択していないケースが確認されている。例えば遺伝子予測ツールAugustusには現在すでに80の種特異的なモデルが含まれているため、この作業は困難である可能性がある。このような場合、最も適したモデルを特定する作業をサポートするために、分類学検索機能が実装された。そのために、ユーザーはアップロードされたゲノムアセンブリの種名を選択する必要がある。これによって、MOSGA 2は各ツールの最適な推定種または系統特異的パラメータを検索する。この機能は遺伝子予測ツールAugustus、GlimmerHMM、SNAPと検証ツールのBUSCOで利用可能である（論文より）。

Submission Details

f:id:kazumaxneo:20211220091813p:plain

locus tag名、strain名などを記入する。既にアノテーションされたゲノムをGBFF (GenBank flat format) ファイルとしてアップロードすることもできる。アップロードすると、異なる遺伝子予測ツール間の比較や、参照アノテーションと実験アノテーション間の比較を行うことができる。技術的には、MOSGA 2はタンパク質をコードする配列を抽出し、それらを互いにマッチングさせる。定義された閾値以上のマッチングはゲノムにビンバックされ、ゲノム間の平均コーディング内容の類似性がヒートマップとして表示される。この解析により、異なるゲノム間での遺伝子予測の一貫性をチェックすることができる（論文より）。

追加の解析モジュール。g.profilerの機能的アノテーションやタンパク質相互作用の予測。

f:id:kazumaxneo:20211220092101p:plain