クロロプラストゲノムは、植物の系統や進化を研究する上で広く利用されている。クロロプラストゲノムの可視化ツールは、ゲノム上の遺伝子の分布を表示するためにいくつか開発されている。しかし、これらのツールは、エクソン、イントロン、繰り返し要素、可変部位などの特徴を描画しないため、ゲノムの構造を深く検討することができない。そこで、本著者らはChloroplast Genome Viewers (CPGView)と呼ばれるソフトウェアを開発し、検証した。CPGViewは、(i)遺伝子、可変部位、およびマイクロサテライト、タンデムリピート、分散リピートを含む反復配列の分布、(ii)座標スケーリングアルゴリズムを用いたエクソン-イントロン境界の位置を調整したシススプライシング遺伝子構造、(iii)トランススプライシング遺伝子rps12構造を示す三つのマップを作成することができる。CPGViewの精度を検証するために、22科31属31種のクロロプラストゲノムのシークエンシング、アセンブル、アノテーションを行った。CPGViewは31のクロロプラストゲノムのすべてについて正しくマップを描いた。最後に、CPGViewを用いて、一般に公開されている553科2513属5998種のクロロプラストゲノムを調べた。その結果、5882個のクロロプラストゲノムは地図を作成することに成功したが、116個のクロロプラストゲノムは地図を作成することに失敗した。また、この116ゲノムのアノテーションには様々な誤りがあり、手作業で修正する必要があることが分かった。このように、CPGViewはクロロプラストゲノムのアノテーションに誤りがないことを、新規に作成したデータと公開されているデータで検証することができた。CPGViewは、クロロプラストゲノムの詳細な構造を研究するためのツールとして、広く利用されるようになると考えられる。CPGViewのウェブ版は、http://www.1kmpg.cn/cpgview からアクセスすることができる。
http://47.96.249.172:16085/cpgview/homeにアクセスする。
左端のメニューからDrawseqを選択。GenBank accessionかGenBank フォーマットのクロロプラストゲノムをアップロードする。
ジョブが完了するまで数分かかる。
結果
167739470302234
The cpg circular genome mapをクリックすると図が表示される。
円の内側から外側まで6つのトラックが示されている(CPGViewの出力に図のレジェンドがあります)
cis-splicing gene mapをクリック
エキソンは黒で、イントロンは白で示されている。エキソンとイントロンの長さは縮尺していないことに注意。
trans-splicing gene map
結果のページの下の方には、同定されたリピート性の配列が種類ごとにまとめられている。
Misaで同定されたShort Tandem Repeats (STR)/ Simple Sequence Repeats (SSR)/ Microsatelite 配列
TRFで同定されたLong Tandem Repeat (繰り返し単位の大きさ >= 7).
VMATCHで特定されたDispersed Repeats
QC reportには遺伝子の種類やポジション、exon-intronの位置などがまとめられている。
このレポートはクロロプラストゲノムについての論文を書く時に重宝すると思われる。
CleanSeqでは配列を修復できる。
CPGViewの説明
ギャップや縮退塩基を表すために使用される "A", "G", "C", "T "以外の文字が含まれている場合がある。このような配列は、アノテーション時の翻訳ステップで問題となる。そのため、cpgviewは "A", "G", "C", "T "以外の文字を含む配列を受け付けないようになっている。このCleanSeqモジュールは、非対応な文字を含む配列を、"A", "G", "C", "T "のみを含む配列に変換する。基本的には、入力配列中のすべての文字の頻度を数え、最も頻度の高い標準塩基で変性塩基を置き換える。
引用
CPGView: A package for visualizing detailed chloroplast genome structures
Shengyu Liu, Yang Ni, Jingling Li, Xinyi Zhang, Heyu Yang, Haimei Chen, Chang Liu
Mol Ecol Resour. 2023 Jan 1