macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

様々なフォーマットのシーケンスファイルを素早くFASTA形式に変換する any2fasta

 

any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照)

 

以下のフォーマットをサポートしている(GIthubより)。

  • Genbank flat file, typically .gb, .gbk, .gbff (starts with LOCUS)
  • EMBL flat file, typically .embl, (starts with ID)
  • GFF with sequence, typically .gff, .gff3 (starts with ##gff)
  • FASTA DNA, typically .fasta, .fa, .fna, .ffn (starts with >)
  • FASTQ DNA, typically .fastq, .fq (starts with @)
  • CLUSTAL alignments, typically .clw, .clu (starts with CLUSTAL or MUSCLE)
  • STOCKHOLM alignments, typically .sth (starts with # STOCKHOLM)
  • GFA assembly graph, typically .gfa (starts with ^[A-Z]\t)

Files may be compressed with:

gzip, typically .gz
bzip2, typically .bz2
zip, typically .zip

 

インストール

macos10.14のminiconda3-4.3.30環境でテストした。

依存

  • any2fasta has no dependencies except Perl 5.10 or higher.

本体 Github

#bioconda
conda install -c bioconda any2fasta

#homebrew
brew install brewsci/bio/any2fasta

#binary
cd /usr/local/bin
wget https://raw.githubusercontent.com/tseemann/any2fasta/master/any2fasta
chmod +x any2fasta

> any2fasta -h

$ any2fasta -h

NAME

  any2fasta 0.4.2

SYNOPSIS

  Convert various sequence formats into FASTA

USAGE

  any2fasta [options] file.{gb,fa,fq,gff,gfa,clw,sth}[.gz,bz2,zip] > output.fasta

OPTIONS

  -h       Print this help

  -v       Print version and exit

  -q       No output while running, only errors

  -n       Replace ambiguous IUPAC letters with 'N'

  -l       Lowercase the sequence

  -u       Uppercase the sequence

HOMEPAGE

  https://github.com/tseemann/any2fasta

END

 

 

テストラン

 入力ファイルと出力ファイルを指定する。

any2fasta input.gbk > output.fasta

 

様々なフォーマットに対応している。NCBI からダウンロードしたgenebankファイルをFASTA形式に変換。

any2fasta GCA_000005845.2_ASM584v2_genomic.gbff.gz > Ecoli.fna 

 

複数ファイルを同時に読み込み、1つのファイルに出力。

any2fasta input1.gbff.gz input2.fna inout3.embl > output.fasta

 

CLUSTALのアラインメントファイルやアセンブリグラフのGFA/FASTGファイルにも対応している。miniasmのアセンブリのGFAファイルをFASTAに変換。

any2fasta assembly.gfa > output.fasta

 

fastqにも対応してますが、処理データ数が多ければseqtk(C lang)やseqkit(Go lang)を使ったほうが早く終わります。

引用

GitHub - tseemann/any2fasta: Convert various sequence formats to FASTA

 

wiki

https://ja.wikipedia.org/wiki/FASTA

 

関連


Torsten Seemannさん(HP)は他にもNGSデータ解析に役立つツールを公開されています(主にスモールゲノム向け)。このブログでもこれまで以下のツールを紹介しました。