any2fastaは様々なフォーマットのシーケンスファイルをFASTAフォーマットに変換するperlスクリプトである。他の依存関係はなしにコアのPerlモジュールのみを使用する。非常に高速に実行する。(公開の動機はGithub参照)
以下のフォーマットをサポートしている(GIthubより)。
- Genbank flat file, typically .gb, .gbk, .gbff (starts with LOCUS)
- EMBL flat file, typically .embl, (starts with ID)
- GFF with sequence, typically .gff, .gff3 (starts with ##gff)
- FASTA DNA, typically .fasta, .fa, .fna, .ffn (starts with >)
- FASTQ DNA, typically .fastq, .fq (starts with @)
- CLUSTAL alignments, typically .clw, .clu (starts with CLUSTAL or MUSCLE)
- STOCKHOLM alignments, typically .sth (starts with # STOCKHOLM)
- GFA assembly graph, typically .gfa (starts with ^[A-Z]\t)
Files may be compressed with:
gzip, typically .gz
bzip2, typically .bz2
zip, typically .zip
インストール
macos10.14のminiconda3-4.3.30環境でテストした。
依存
- any2fasta has no dependencies except Perl 5.10 or higher.
本体 Github
#bioconda
mamba install -c bioconda any2fasta -y
#homebrew
brew install brewsci/bio/any2fasta
#binary
cd /usr/local/bin
wget https://raw.githubusercontent.com/tseemann/any2fasta/master/any2fasta
chmod +x any2fasta
> any2fasta -h
$ any2fasta -h
NAME
any2fasta 0.4.2
SYNOPSIS
Convert various sequence formats into FASTA
USAGE
any2fasta [options] file.{gb,fa,fq,gff,gfa,clw,sth}[.gz,bz2,zip] > output.fasta
OPTIONS
-h Print this help
-v Print version and exit
-q No output while running, only errors
-n Replace ambiguous IUPAC letters with 'N'
-l Lowercase the sequence
-u Uppercase the sequence
HOMEPAGE
https://github.com/tseemann/any2fasta
END
テストラン
入力ファイルと出力ファイルを指定する。
any2fasta input.gbk > output.fasta
様々なフォーマットに対応している。NCBI からダウンロードしたgenbankファイルをFASTA形式に変換。
any2fasta GCA_000005845.2_ASM584v2_genomic.gbff.gz > Ecoli.fna
複数ファイルを同時に読み込み、1つのファイルに出力。
any2fasta input1.gbff.gz input2.fna inout3.embl > output.fasta
CLUSTALのアラインメントファイルやアセンブリグラフのGFA/FASTGファイルにも対応している。miniasmのアセンブリのGFAファイルをFASTAに変換。
any2fasta assembly.gfa > output.fasta
fastqにも対応してますが、処理データ数が多ければseqtk(C lang)やseqkit(Go lang)を使ったほうが早く終わります。
引用
GitHub - tseemann/any2fasta: Convert various sequence formats to FASTA
https://ja.wikipedia.org/wiki/FASTA
関連
Torsten Seemannさん(HP)は他にもNGSデータ解析に役立つツールを公開されています(主にスモールゲノム向け)。このブログでもこれまで以下のツールを紹介しました。