macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

embossのseqretでFASTAを修復する

FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が入っていたり、何らかの理由があるわけだが、embossのseqretを使うと簡単に修復することができる。seqretは入力ファイルを分析し、パースして標準的なNCBIFASTA形式で出力することに使われるコマンドである。

 

公式サイト

http://emboss.sourceforge.net/apps/release/6.6/emboss/apps/seqret.html

 

インストール

embossbrewで導入できる。

brew cask install xquartz #xquartzも無ければ入れておく
brew
install emboss

 

ラン

seqret 

入力のFASTAと出力のFASTA名を順番に入力する。

 user$ seqret

Read and write (return) sequences

Input (gapped) sequence(s): input.fasta 

output sequence(s) [chr.fasta]:out.fa

 

これだけでFASTAを修復できる。

 

UCSCからも同様のツールが提供されています。

https://users.soe.ucsc.edu/~kent/dnaDust/dnadust.html

 

Proteinの修復ならProtein Duster が利用できます。

 

引用

EMBOSS: The European Molecular Biology Open Software Suite

Rice P1, Longden I, Bleasby A.

Trends Genet. 2000 Jun;16(6):276-7.

 

http://seqanswers.com/forums/showthread.php?t=2352