macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

FASTAを修復するEMBOSSのseqretコマンド

2019 6/19 インストール追記

2019 7/15 タイトル修正

2019 8/7リンク追加

 

FASTAをいじっていると、何らかの拍子に構造がおかしくなってsamtoolsのindexでsegmentation errorを起こすことがある。途中に空行ができていたり、特殊文字が入っていたり、何らかの理由があるわけだが、embossのseqretを使うと簡単に修復することができる。seqretは入力ファイルを分析し、パースして標準的なNCBIFASTA形式で出力することに使われるコマンドである。

 

公式サイト

http://emboss.sourceforge.net/apps/release/6.6/emboss/apps/seqret.html

 

インストール

embossはcondaやbrewで導入できる。

#bioconda (link)
conda install -c bioconda -y emboss

#homebrew
brew cask install xquartz #xquartzも無ければ入れておく
brew
install emboss

seqret -h

$ seqret -h

Read and write (return) sequences

Version: EMBOSS:6.6.0.0

 

   Standard (Mandatory) qualifiers:

  [-sequence]          seqall     (Gapped) sequence(s) filename and optional

                                  format, or reference (input USA)

  [-outseq]            seqoutall  [<sequence>.<format>] Sequence set(s)

                                  filename and optional format (output USA)

 

   Additional (Optional) qualifiers: (none)

   Advanced (Unprompted) qualifiers:

   -feature            boolean    Use feature information

   -firstonly          boolean    [N] Read one sequence and stop

 

   General qualifiers:

   -help               boolean    Report command line options and exit. More

                                  information on associated and general

                                  qualifiers can be found with -help -verbose

 

 

 

実行方法

seqret 

入力のFASTAと出力のFASTA名を順番に入力する。

 user$ seqret

Read and write (return) sequences

Input (gapped) sequence(s): input.fasta 

output sequence(s) [chr.fasta]:out.fa

 

またはinputとoutputのfasta名を指定する。

seqret input.fasta output.fasta

 

これだけでFASTAを修復できる。

 

UCSCからも同様のツールが提供されています。

https://users.soe.ucsc.edu/~kent/dnaDust/dnadust.html

 

EMBL-EBI

https://www.ebi.ac.uk/Tools/sfc/emboss_seqret/ 

f:id:kazumaxneo:20190807025349p:plain


 

Proteinの修復ならProtein Duster が利用できます。

引用

EMBOSS: The European Molecular Biology Open Software Suite

Rice P1, Longden I, Bleasby A.

Trends Genet. 2000 Jun;16(6):276-7.

 

http://seqanswers.com/forums/showthread.php?t=2352