寄生虫、真菌、節足動物ゲノムのアノテーションと可視化を行う Companion

ゲノムのシーケンシングがますます盛んになるにつれ、得られたアセンブリーのアノテーションの必要性が高まっている。構造的・機能的アノテーションは、正しい遺伝子配列を見つけること、RNAなどの他の要素にアノテーションを付けること、それらのデータをデータベースに提出してコミュニティと共有することなどが含まれるため、依然として困難である。連続した染色体が高品質であることを示すde novoアセンブリーと比較すると、アノテーションの品質を可視化し評価することは困難である。私たちは、専門家でなくても参照ベースの手法を使ってゲノムのアノテーションができるように、Companionウェブサーバーを開発しました。この更新論文では、遺伝子検索のための新しいメソッドを追加し、Companion サーバーを 1 Gb までのサイズのゲノムのアノテーションに対してより効率的にした方法について説明します。参照セットを増やし、真菌類と節足動物界から、ヒトと動物の健康に関心のあるゲノムを追加しました。コンパニオンは、密接に関連するリファレンスが利用可能な場合、既存の同等のツールよりも優れていることを示す。

FAQ

https://companion.gla.ac.uk/faq

Workflow. FAQから転載

インストール

Github

Docker container (local run)

https://hub.docker.com/r/uofgiii/companion/tags

webサービス

https://companion.ac.uk/にアクセスする。

”新規ゲノムのアノテーションは、スキャフォールド配列（FASTA、EMBL、GenBank）をアップロードし、リファレンスを選択してボタンを押すだけで、簡単に行うことができる。アノテーションの結果は、通常2～3時間で得られる。アノテーション結果は、遺伝子モデルおよび産物のアノテーションには有効なGFF3フォーマットで、GO関連はGAFフォーマットで提供される”

Fungi-Protozoaがアクティブになっている。Annnotateをクリック。

Step 1

ジョブ名（種名など）、短いspecies prefix（例：CD36）、アノテーションの対象となる生物種の種名を入力する。

”ジョブ名はCompanion がジョブを示すために使用するフリーテキスト識別子で、アノテーション出力では使用されず、個々のランを区別するためだけのもの。対照的に、種の接頭辞は、偽染色体や遺伝子 ID など、最終結果のあらゆる種類の識別子を構築するために使用される。例えば、WXYZ という種の接頭辞を選んだ場合、アノテーションされたゲノムの遺伝子には、WXXZ_00006700 のように、その文字列を接頭辞とする遺伝子 ID が割り当てられ、転写産物は WXXZ_00006700.1 などと呼ばれる”

Step 2：Target sequence

アノテーションの対象となる配列ファイルを選択する。コンティグかスキャフォールド配列（FASTA、EMBL、GenBank）の生かgzipまたはbzip2圧縮形式を認識する（圧縮なら接尾辞が .gz または .bz2 であること）。

解凍された配列ファイルサイズは最大4000MB、含まれる配列数は最大3000の制限がある。それ以上のサイズのゲノムにアノテーションを付ける必要がある場合、Companion のスタンドアロンバージョンを十分にパワフルなマシンで実行する（dockerとレポジトリ参照）。

Step 3：Transcript evidence

トランスクリプトエビデンスを使用するならアップロードする。Cufflinks によって作成された GTF 形式のトランスクリプトを利用することができる。

トランスクリプト・エビデンスは、cufflinks、cuffmerge、cuffcompare などが作成するGTF 形式で提供する必要がある（FAQ参照）（最大サイズ4000 MB）。

Step 4：Reference organism
このアノテーションを実行するための（可能であれば近縁の）参照生物の種名をリストから選ぶ。この生物は、遺伝子検索、機能アノテーショントランスファー、および偽染色体のコンティギュレーションのモデルを指定するために使用される。

Step5：Pseudochromosome contiguation

入力ファイルの配列が参照生物の染色体配列と整列するように順序付けと方向付けし、疑似染色体を構築する。オプションで、希望しない場合は入力配列に変更は加えられない。

実行する場合、コンティグ配置に必要な最小マッチ長と最小一致類似度を選択する。参照染色体に従って配列の順序や方向を決めて疑似染色体を作成することで、構造変異を素早くチェックすることが可能になり、染色体ごとに遺伝子IDに番号を付けることができ、有用な比較グラフの作成にも役立つ。オリジナルのABACASツールの後継であるABACAS2を使用して、このコンティグレーションのステップは実行される（マニュアルより）。

Step6：Advanced settings

１）参照生物のタンパク質配列を遺伝子探索時の追加エビデンスとして使用するか（ランタイムが増加する）、２）偽遺伝子検出を行うか、３）structural annotationにAUGUSTUSのみを使うかBRAKERを追加で使用するか、４）Rapid Annotation Transfer Tool (RATT)を使用してリファレンスからターゲットゲノムに高度に保存された遺伝子を直接マッピングするか（近縁種があるときのみ有効）、５－９）また個々の遺伝子の最大長や最大オーバーラップ塩基数、AUGUSTUSスコア閾値、tax ID、database IDの指定など。

Companionは、参照ゲノムで高度に保存されたオルソログから、遺伝子構造や産物情報などの情報をtransferしようとする。また、リファレンスの遺伝子でトレーニングされた予測モデルが、de novo 遺伝子探索に使用される。現在、GeneDBおよびEuPathDBからインポートした、多くの寄生虫および関連種にわたる434のリファレンスデータセットが提供されている。

問題なければサブミットする。ジョブ開始と終了の通知を希望する場合は、メールアドレスを入力する。

ジョブステータスは以下で確認できる。テスト時はサブミット後すぐに実行中のジョブとなり、２時間ほどで終了の通知が来た（ゲノムサイズ12Mb）。

Example resultを簡単に見てみる。

Companion example

Results File

クリックしてダウンロードする。

Orthology

"共有および種特異的タンパク質コード遺伝子クラスターを示す。シングルトン、すなわちどちらの生物種でもオルソログやパラログを持たない遺伝子は、ベン図の左右の外側に配置されている。"

数字をクリックすると内容を閲覧できる。

カスタム分析用に、フラットテキスト（OrthoMCL 2.0形式）もダウンロードできる。

Phylogeny

近縁種の系統間で共有される最大50のシングルコピー遺伝子のセットから、fastツリーが構築される。

新たにアノテーションされたゲノム" CDUB"がハイライトされている（一番上）。

Circularに変更

Synteny

上から染色体を選ぶ。参照染色体と新しくアノテーションされた染色体とのアラインメントを示す環状プロットが表示される。

”灰色のリボンは、BLASTNマッチによって同定された類似領域を示す。順鎖の遺伝子（青）と逆鎖の遺伝子（赤）、ギャップ（黄）、シングルトン（黒）、欠失したコア遺伝子（緑）がそれぞれ別々のトラックで染色体上にアノテーションされている。これらのプロットはリファレンスとターゲットのコリニアリティを可視化するのに便利で、偽染色体のコンティギュレーションや大規模な染色体再配列における潜在的な問題を特定するのにも役立つ。”

Job parameters