2022/09/06 タイトル変更
一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラスミドなどの小さい配列にアノテーションを付けることがよくある。ただし、生成されたGenBankまたはEMBLファイルは、NCBIへのsubmitには受け入れられない。 NCBI自体は、アノテーションおよび/またはsubmitツールとしてWebベースのツールBankItまたはスタンドアロンプログラムSequinおよびtbl2asn [ref.1]を提供しているが、これらのプログラムもGenBankまたはEMBLファイルを読み取れない。代わりに、BankItまたはSequinへの時間のかかる手動の機能入力を回避するために、ユーザーはいわゆる「5列のタブ区切り機能テーブル」、これはfeature tableまたはfeature table(http://www.ncbi.nlm.nih.gov/Sequin/table.html)とも呼ばれる、を提供する必要がある。ただし、GenBankエントリからこのようなアノテーションテーブルを作成するには、NCBI構文に実質的に精通する必要がある。さらに、submitに適したSequinファイルを作成するNCBIの強力なコマンドラインプログラムであるtbl2asnには、アノテーションテーブルといくつかの計算スキルの両方が必要である。
残念ながら、GenBankエントリ(gbk2sqnおよびgbk2tbl、Andre VillegasとPaulina Konczy、Laborate for Foodborne Zoonoses、カナダ、ゲルフ)からSequinファイルまたはアノテーションテーブルを生成する唯一のパブリックブラウザベースのファイルコンバーターはサポートされなくなった[ref.2] 。 NCBI(ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl)が提供するGenBankパーサー(gbf2tbl.pl, link)は、2つのプログラムを部分的に置き換えることができる。以下で説明するツールと同様に、スクリプトはGenBankレコードからアノテーションテーブルとFASTAファイルを生成する。その後、これらのファイルをtbl2asnで読み取って、直接送信用のSequinファイルを作成できる。ただし、GenBankパーサーはユーザーフレンドリーではない。 perlスクリプトとしてのみ提供されており、tbl2asnは手動で実行する必要がある。最後に、GenBankファイルをsubmit形式に変換するArtemis [ref.3]などの無料のスタンドアロンプログラムに実装された機能には、これらの追加ソフトウェアのインストールが必要である。
要約すると、GenBankアノテーションをアノテーションテーブルに直接変換し、さらに直接送信用のSequinファイルを提供する、Webベースの使いやすいファイルコンバーターが強く求められている。そのため、マックスプランク分子植物生理学研究所(ポツダム/ゴルム、ドイツ)でホストおよび開発されたCHLOROBOXツールキット(https://chlorobox.mpimp-golm.mpg.de)の一部としてGB2sequinを開発した。このツールボックスは、(植物由来の)核酸およびタンパク質配列の分析のためのソフトウェアアプリケーションを提供する。もう1つのCHLOROBOXプログラムは、オルガネラゲノムの迅速かつ正確なアノテーションのためのアプリケーションであるGeSeqである[ref.4]。 GB2sequinは、データベース送信のため、GeSeqのアノテーション出力を変換するために使用できる。GB2sequinを使用してNCBIに送信するために、カスタムGenBankファイルを準備できる。
GB2sequinはGenBankファイルを解析し、アノテーションをタブ区切りのアノテーションテーブルに変換する。さらに、GenBankファイルから核酸配列情報を抽出し、NCBIレコードの必須ソースおよび配列情報(以下を参照)とともにFASTAファイルに書き込む。これらの2つのファイルは、BankItを介した送信、または既存のGenBankレコードの更新に使用できる。直接送信用のSequinファイルを作成するために、GB2sequinはtbl2asnを呼び出す。このために、アノテーションテーブル、FASTAファイル、およびシーケンスソースまたは著者の提出情報を含む追加ファイルを組み合わセル(以下を参照)。オプション機能として、GB2sequinは、アノテーション内またはアノテーションにコーディングシーケンス(CDS)、tRNA、および/またはrRNAの遺伝子名を編集または追加できる。これは、より大きなゲノムの改訂に役立つ場合がある。最後に、GB2sequinは品質管理用の複数の出力ファイルを生成する(論文図1)。
(以下略)
使い方
CHLOROBOX
https://chlorobox.mpimp-golm.mpg.de/index.html
植物オルガネラゲノムのアノテーションや配列比較ツールなどがある。
ここではGB2sequinにアクセスする。
https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html
GenBankファイルを指定する。ここではサルモネラゲノムのgenbankファイルを使用する。
パラメータを指定する。
Molecular typeはgenomic DNAのままとする。
circularにチェックをつける。
Genetic codeはBacterial,~に変更。
Locationはないのでgenomicのままとする。
ランを押して実行する。
結果
Validation結果が表示される。下に並んでいる赤いマークボタンをクリックすると、変換後のファイル等をダウンロードできる。
引用
GB2sequin - A file converter preparing custom GenBank files for database submission.
Lehwark P, Greiner S
Genomics. 2019 Jul;111(4):759-761