この小さなCプログラムgbmungeは、GenBankファイルをFASTA配列とタブで区切られたメタデータに変換する。
GenBankファイルから以下の情報を抽出する。
- 名前
- アクセッション
- 長さ
- 投稿日
- ホスト
- 国
- 収集日
これらの情報を抽出するだけでなく、日付はBEASTのような下流のソフトウェアでより理解しやすくするために、31-DEC-2001を2001-12-31にするなど再フォーマットされ、国名はISO3コードにマッチするようにクリーニングされる。
インストール
#conda (link)
mamba install -c bioconda -y gbmunge
#from source
git clone https://github.com/sdwfrost/gbmunge
cd gbmunge
make
> gbmunge -h
$ gbmunge -h
gbmunge: option requires an argument -- 'h'
Extract from a GenBank flat file.
Usage: gbmunge [-h] -i <Genbank_file> -f <sequence_output> -o <metadata_output> [-t] [-s]
実行方法
GenBankファイルを指定する。
gbmunge -i input.gbff -f output.fasta -o metadata.txt
メタデータ出力
引用
GitHub - sdwfrost/gbmunge: Munge GenBank files into FASTA and tab-separated metadata
関連