macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GenBankやEMBL/ENA flat fileをNCBI submission用に変換する GB2sequin

2022/09/06 タイトル変更

 

 一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラスミドなどの小さい配列にアノテーションを付けることがよくある。ただし、生成されたGenBankまたはEMBLファイルは、NCBIへのsubmitには受け入れられない。 NCBI自体は、アノテーションおよび/またはsubmitツールとしてWebベースのツールBankItまたはスタンドアロンプ​​ログラムSequinおよびtbl2asn [ref.1]を提供しているが、これらのプログラムもGenBankまたはEMBLファイルを読み取れない。代わりに、BankItまたはSequinへの時間のかかる手動の機能入力を回避するために、ユーザーはいわゆる「5列のタブ区切り機能テーブル」、これはfeature tableまたはfeature table(http://www.ncbi.nlm.nih.gov/Sequin/table.html)とも呼ばれる、を提供する必要がある。ただし、GenBankエントリからこのようなアノテーションテーブルを作成するには、NCBI構文に実質的に精通する必要がある。さらに、submitに適したSequinファイルを作成するNCBIの強力なコマンドラインプログラムであるtbl2asnには、アノテーションテーブルといくつかの計算スキルの両方が必要である。

 残念ながら、GenBankエントリ(gbk2sqnおよびgbk2tbl、Andre VillegasとPaulina Konczy、Laborate for Foodborne Zoonoses、カナダ、ゲルフ)からSequinファイルまたはアノテーションテーブルを生成する唯一のパブリックブラウザベースのファイルコンバーターはサポートされなくなった[ref.2] 。 NCBIftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl)が提供するGenBankパーサー(gbf2tbl.pl, link)は、2つのプログラムを部分的に置き換えることができる。以下で説明するツールと同様に、スクリプトGenBankレコードからアノテーションテーブルとFASTAファイルを生成する。その後、これらのファイルをtbl2asnで読み取って、直接送信用のSequinファイルを作成できる。ただし、GenBankパーサーはユーザーフレンドリーではない。 perlスクリプトとしてのみ提供されており、tbl2asnは手動で実行する必要がある。最後に、GenBankファイルをsubmit形式に変換するArtemis [ref.3]などの無料のスタンドアロンプ​​ログラムに実装された機能には、これらの追加ソフトウェアのインストールが必要である。

 要約すると、GenBankアノテーションアノテーションテーブルに直接変換し、さらに直接送信用のSequinファイルを提供する、Webベースの使いやすいファイルコンバーターが強く求められている。そのため、マックスプランク分子植物生理学研究所ポツダム/ゴルム、ドイツ)でホストおよび開発されたCHLOROBOXツールキット(https://chlorobox.mpimp-golm.mpg.de)の一部としてGB2sequinを開発した。このツールボックスは、(植物由来の)核酸およびタンパク質配列の分析のためのソフトウェアアプリケーションを提供する。もう1つのCHLOROBOXプログラムは、オルガネラゲノムの迅速かつ正確なアノテーションのためのアプリケーションであるGeSeqである[ref.4]。 GB2sequinは、データベース送信のため、GeSeqのアノテーション出力を変換するために使用できる。GB2sequinを使用してNCBIに送信するために、カスタムGenBankファイルを準備できる。

GB2sequinはGenBankファイルを解析し、アノテーションをタブ区切りのアノテーションテーブルに変換する。さらに、GenBankファイルから核酸配列情報を抽出し、NCBIレコードの必須ソースおよび配列情報(以下を参照)とともにFASTAファイルに書き込む。これらの2つのファイルは、BankItを介した送信、または既存のGenBankレコードの更新に使用できる。直接送信用のSequinファイルを作成するために、GB2sequinはtbl2asnを呼び出す。このために、アノテーションテーブル、FASTAファイル、およびシーケンスソースまたは著者の提出情報を含む追加ファイルを組み合わセル(以下を参照)。オプション機能として、GB2sequinは、アノテーション内またはアノテーションにコーディングシーケンス(CDS)、tRNA、および/またはrRNAの遺伝子名を編集または追加できる。これは、より大きなゲノムの改訂に役立つ場合がある。最後に、GB2sequinは品質管理用の複数の出力ファイルを生成する(論文図1)。

(以下略)

 

使い方

CHLOROBOX

https://chlorobox.mpimp-golm.mpg.de/index.html

f:id:kazumaxneo:20191102174609p:plain

植物オルガネラゲノムのアノテーションや配列比較ツールなどがある。

 

ここではGB2sequinにアクセスする。

https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html 

f:id:kazumaxneo:20191102172153p:plain

 

GenBankファイルを指定する。ここではサルモネラゲノムのgenbankファイルを使用する。

f:id:kazumaxneo:20191102174807p:plain

パラメータを指定する。

f:id:kazumaxneo:20191102175319p:plain

 

Molecular typeはgenomic DNAのままとする。

f:id:kazumaxneo:20191102180334p:plain

circularにチェックをつける。

f:id:kazumaxneo:20191102180512p:plain

 

Genetic codeはBacterial,~に変更。

f:id:kazumaxneo:20191102180531p:plain

Locationはないのでgenomicのままとする。

f:id:kazumaxneo:20191102180601p:plain

ランを押して実行する。

 

結果

Validation結果が表示される。下に並んでいる赤いマークボタンをクリックすると、変換後のファイル等をダウンロードできる。

f:id:kazumaxneo:20191102183332p:plain

引用
GB2sequin - A file converter preparing custom GenBank files for database submission.
Lehwark P, Greiner S

Genomics. 2019 Jul;111(4):759-761