macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

GenBankファイルから配列とメタデータを取り出す gbmunge

 

この小さなCプログラムgbmungeは、GenBankファイルをFASTA配列とタブで区切られたメタデータに変換する。

GenBankファイルから以下の情報を抽出する。

  • 名前
  • アクセッション
  • 長さ
  • 投稿日
  • ホスト
  • 収集日

これらの情報を抽出するだけでなく、日付はBEASTのような下流のソフトウェアでより理解しやすくするために、31-DEC-2001を2001-12-31にするなど再フォーマットされ、国名はISO3コードにマッチするようにクリーニングされる。

 

インストール

Github

#conda (link)
mamba install -c bioconda -y gbmunge

#from source
git clone https://github.com/sdwfrost/gbmunge
cd gbmunge
make

> gbmunge -h

$ gbmunge -h
gbmunge: option requires an argument -- 'h'
Extract from a GenBank flat file.

Usage: gbmunge [-h] -i <Genbank_file> -f <sequence_output> -o <metadata_output> [-t] [-s]

 

 

実行方法

GenBankファイルを指定する。

gbmunge -i input.gbff -f output.fasta -o metadata.txt

 

メタデータ出力

f:id:kazumaxneo:20210413000636p:plain
引用

GitHub - sdwfrost/gbmunge: Munge GenBank files into FASTA and tab-separated metadata

 

関連