macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

FASTA3 package(fasta36)

D J Lipman, W R Pearson, 1985

 新たに決定されたアミノ酸配列とデータベースで既に利用可能な配列との間の類似性の検索を容易にするアルゴリズムが開発された。このアルゴリズムは多くのマイクロコンピュータ上で効率的に動作するため、繊細なタンパク質データベースの検索は、今や分子生物学者にとって日常的な手順になるかもしれない。この方法では、類似した配列の領域を効率的に同定し、アミノ酸置換性マトリックスを用いて、それらの領域内のアラインメントされた同一残基と相違する残基をスコア化する。このマトリックスは、進化の過程で頻繁に起こるアミノ酸置換に高いスコアを与えることで感度を向上させる。このアルゴリズムは、タンパク質データベースを非常に高速に検索するように設計されたコンピュータプログラムに実装されている。例えば、200-アミノ酸配列と国立生物医学研究財団ライブラリの50万残基との比較は、ミニコンピュータでは2分以内、マイクロコンピュータIBM PC)では10分以内である。

 

W R Pearson 1, D J Lipman, 1988

 タンパク質とDNAの配列を比較するための3つのコンピュータプログラムを開発した。これらのプログラムは、配列データベースの検索、類似度スコアの評価、局所的な配列類似度に基づく周期的構造の同定に使用することができる。FASTAプログラムは、FASTPプログラムのより高感度な派生プログラムであり、タンパク質またはDNA配列データベースを検索するために使用することができ、タンパク質配列とDNA配列データベースを検索しながらDNA配列データベースを翻訳することで、タンパク質配列とDNA配列データベースを比較することができる。FASTAは、初期のペアワイズ類似度スコアを計算するステップをさらに含み、類似度の複数の領域を結合して関連する配列のスコアを増加させることができる。RDF2プログラムは、局所的な配列構成を保存するシャッフリング法を用いて、類似度スコアの有意性を評価するために使用することができる。LFASTAプログラムは、同一のスコアリングパラメータと類似アライメントアルゴリズムを用いて、閾値以上のスコアを有する2つの配列間の局所的な類似度のすべての領域を表示することができ;これらの局所的な類似度は、「グラフィックマトリクス」プロットとして、または個々のアライメントとして表示することができる。さらに、これらのプログラムは、様々な代替的なスコアリングマトリックスに基づくDNAまたはタンパク質配列の比較を可能にするように一般化されている。

 

Githubより

FASTA(FAST-Aye(ファストエー)と発音し、FAST-Ahではない)プログラムは、タンパク質およびDNA配列データベースを検索するための類似性検索およびアラインメントプログラムの包括的なセットである。BLASTプログラムblastpおよびblastnと同様に、FASTAプログラム自体は、タンパク質およびDNA配列中の類似領域を見つけるための迅速なヒューリスティック戦略を使用している。しかし、FASTA パッケージには、ヒューリスティックな類似性検索に加えて、厳密なローカル類似性検索(ssearch)とグローバル類似性検索(ggsearch)のためのプログラムと、重なり合わない配列類似性を見つけるためのプログラム(alalign)がある。BLASTと同様に、FASTAパッケージには、翻訳されたDNA配列をタンパク質に対して整列させるプログラムも含まれている(fastx, fastyはblastxに相当し、tfastx, tfastyはtblastnに相当する)。

 

documentation

https://vcru.wisc.edu/simonlab/bioinformatics/programs/fasta/fasta_guide.pdf

William Pearson 

https://en.wikipedia.org/wiki/William_Pearson_(scientist)

FASTA

FASTA - Wikipedia

 

 

インストール 

macos10.14でcondaを使って導入した。

Github

HP

condaではバージョン36のfasta36を導入できる。fasta2、fasta3、fasta33-35はオーサーの上のリンク先からダウンロードする。

#bioconda(link)
conda install -c bioconda fasta3 -y

> fasta36

$ fasta36 

USAGE

 fasta36 [-options] query_file library_file [ktup]

 fasta36 -help for a complete option list

 

DESCRIPTION

 FASTA searches a protein or DNA sequence data bank

 version: 36.3.8g Oct, 2018

 

COMMON OPTIONS (options must preceed query_file library_file)

 -s:  scoring matrix;

 -f:  gap-open penalty;

 -g:  gap-extension penalty;

 -S   filter lowercase (seg) residues;

 -b:  high scores reported (limited by -E by default);

 -d:  number of alignments shown (limited by -E by default);

 -I   interactive mode;

ssearch36

$ ssearch36

USAGE

 ssearch36 [-options] query_file library_file

 ssearch36 -help for a complete option list

 

DESCRIPTION

 SSEARCH performs a Smith-Waterman search

 version: 36.3.8g Oct, 2018

 

COMMON OPTIONS (options must preceed query_file library_file)

 -s:  scoring matrix;

 -f:  gap-open penalty;

 -g:  gap-extension penalty;

 -S   filter lowercase (seg) residues;

 -b:  high scores reported (limited by -E by default);

 -d:  number of alignments shown (limited by -E by default);

 -I   interactive mode;

fastx36

$ fastx36 

USAGE

 fastx36 [-options] query_file library_file [ktup]

 fastx36 -help for a complete option list

 

DESCRIPTION

 FASTX compares a DNA sequence to a protein sequence data bank

 version: 36.3.8g Oct, 2018

 

COMMON OPTIONS (options must preceed query_file library_file)

 -s:  scoring matrix;

 -f:  gap-open penalty;

 -g:  gap-extension penalty;

 -j:  frame-shift penalty;

 -S   filter lowercase (seg) residues;

 -E:  E()-value threshold;

 -b:  high scores reported (limited by -E by default);

 -d:  number of alignments shown (limited by -E by default);

 -I   interactive mode;

tfastx36

$ tfastx36

USAGE

 tfastx36 [-options] query_file library_file [ktup]

 tfastx36 -help for a complete option list

 

DESCRIPTION

 TFASTX compares a protein to a translated DNA data bank

 version: 36.3.8g Oct, 2018

 

COMMON OPTIONS (options must preceed query_file library_file)

 -s:  scoring matrix;

 -f:  gap-open penalty;

 -g:  gap-extension penalty;

 -j:  frame-shift penalty;

 -S   filter lowercase (seg) residues;

 -E:  E()-value threshold;

 -b:  high scores reported (limited by -E by default);

 -d:  number of alignments shown (limited by -E by default);

 -I   interactive mode;

> ggsearch36

$ ggsearch36

USAGE

 ggsearch36 [-options] query_file library_file

 ggsearch36 -help for a complete option list

 

DESCRIPTION

 GGSEARCH performs a global/global database searches

 version: 36.3.8g Oct, 2018

 

COMMON OPTIONS (options must preceed query_file library_file)

 -s:  scoring matrix;

 -f:  gap-open penalty;

 -g:  gap-extension penalty;

 -S   filter lowercase (seg) residues;

 -b:  high scores reported (limited by -E by default);

 -d:  number of alignments shown (limited by -E by default);

 -I   interactive mode;

 

 

実行方法

クエリとデータベースの配列を指定する。

fasta36 [-options] query_file library_file [ktup]

 

または対話モードで実行する。

fasta36 -I

 

FASTAパッケージは長い配列間の類似性を探索します。配列間の局所的な類似性を探索する場合にはblastを使います。

引用
Rapid and sensitive protein similarity searches

D J Lipman, W R Pearson

Science. 1985 Mar 22;227(4693):1435-41


Improved tools for biological sequence comparison

W R Pearson 1, D J Lipman

Proc Natl Acad Sci U S A. 1988 Apr; 85(8): 2444–2448

 

参考


関連