DeGeCIは、de Bruijn graphとして表現されるアノテーションされたミトコンドリアミトコンドリアゲノムのリファレンスデータベースを用いて、ミトコンドリア塩基配列から完全自動のde novo遺伝子予測を生成するコマンドラインツールである。入力ゲノムはこのグラフにマップされ、サブグラフが作成され、クラスタリングルーチンによって後処理される。DeGeCIのバージョン1.1では、GUIベースの入力用にウェブフロントエンドが提供されている。また、入力ゲノムの翻訳テーブルを提供する際に、参照データベース内の生物種をユーザー指定の分類学的分類に制限し、遺伝子境界の最適化を可能にする新しい分類学的フィルターパイプラインが導入されている。ウェブプラットフォームはhttp:// https://degeci.informatik.uni-leipzig.de、ソースコードはhttps://git.informatik.uni-leipzig.de/lfiedler/degeciで利用できる。
簡易マニュアル
https://degeci.informatik.uni-leipzig.de/catalog/example
インストール
GitLab
https://degeci.informatik.uni-leipzig.de/catalogにアクセスする。
ミトコンドリアゲノムのFASTA配列を入力しサブミットする。複数のゲノムのMulti-FASTAファイルが提供された場合、最初の配列のみが使用される。
Advanced
デフォルトでは、入力ゲノムは環状であると仮定されている。チェックボックス(N)のチェックを外すと、入力は線状として扱われる。Geneticコードは一部の分類群では変える必要がある。 edge weightは入力配列の(K+1)-merを含む最初のサブグラフのデータベースゲノムの最小数を表す。他は論文参照。
データベース内の特定の分類群の種のサブセットのみをアノテーションに使用することもできる。1つまたは複数の生物の分類学IDまたは学名を入力すると、指定された分類のLCA以下の系統樹サブツリー内のデータベース種だけが使用される。右端のexclude selection "を選択すると、これらの種はアノテーションに使用されない。
このフィルタの使用例として、入力ゲノムでどの遺伝子が特定の分類群に関して保存されているかを解析したり、特定の分類群が結果の質に与える影響を調べたりすることが考えられる(マニュアルより)。
結果が出るまでしばらく時間がかかる。
出力
結果はダウンロードできる。
degeciAnnotations/
- 入力ゲノムの遺伝子アノテーションを含むBEDファイル
- 遺伝子の順番、すなわちゲノムに現れる順番の遺伝子名を含むテキストファイル。これはゲノムリシークエンシング解析(CRExなど)に使用できる。
- 検出された遺伝子配列のfasta(拡張子 faa)
- 採用したパラメータ設定を含むテキストファイル
- 遺伝子の png ファイル
NC_022828.faa
NC_022828_geneplot
遺伝子アノテーションのBEDファイルはBioViz(link)のIntegrated Genome Browser(IGB)やIGVで視覚化することが提案されている。
helpより
- DeGeCI 1.1は、RefSeqデータリポジトリにある様々な分類群の完全なマイトゲノムからなる大規模なコレクションの参照データベースを使用し、このデータベースは注釈付きのcolored de Bruijnグラフとして表現される。ユーザーが提供したmitogenomeが与えられると、その配列に含まれる長さ(k+1)のすべての置換基、すなわち(k+1)-mersが生成される。この入力ゲノムグラフから、データベースグラフの誘導部分グラフが作成される。すなわち、データベースグラフと入力ゲノムグラフの両方に含まれるすべての頂点と辺からなる部分グラフである。入力配列中の一致しないセグメントは、この部分グラフ中の別々の構成要素となる。最後に、サブグラフにアノテーションされたデータベース配列の遺伝子アノテーションが集約され、最終的な遺伝子予測が作成される。
- DeGeCI 1.1では、MITOS2にはない分類学的フィルターが利用できる。
引用
DeGeCI 1.1: a web platform for gene annotation of mitochondrial genomes
Lisa Fiedler, Matthias Bernt, Martin Middendorf
Bioinformatics Advances, Published: 13 May 2024
関連