FGAPはドラフトゲノムのギャップを埋めるためのツール。BLASTを使用して、複数のコンティグをドラフトゲノムアセンブリに対して整列させ、ギャップを埋めるために最良のシーケンスを検出する。ヒトchr14では、ギャップの数を35%減少させたと述べられている。
インストール
cent OSに導入した。
依存
- blast+
- MCR
MATLAB Runtimeは本体とともにSorceForgeからダウンロードできる。ダウンロードしたら解凍して、インストールディレクトリを指定して./installMCR.shを実行する。homeのMCR/にインストールするなら
cd MCR_LINUX64b/
./installMCR.sh /home/uesaka/MCR/
本体 SourceForge
https://sourceforge.net/projects/fgap/files/?source=navbar
ラン
上で導入したMATLAB Runtimeのインストールディレクトリを指定してランする。
テストデータを実行する。454のリードでアセンブルしたcontigを伸ばすために、454のリードと、illumina hiseqのリードを指定している。
./run_fgap.sh MCR/v717/ -d sample_data/DRAFT_ecoli_hiseq454.fasta -a "sample_data/DATASET_ecoli_hiseq.fasta,sample_data/DATASET_ecoli_454.fasta" -b blast/
1分程度でテストランは終わる。中間ファイルも含めて複数ファイルが作られる。
> ls -alth
$ ls -alth
total 355M
drwxr-xr-x 7 uesaka user 4.0K Feb 14 11:03 .
-rw-r--r-- 1 uesaka user 2.2K Feb 14 11:03 output_fgap.stats
-rw-r--r-- 1 uesaka user 4.5M Feb 14 11:03 output_fgap_4.fasta
-rw-r--r-- 1 uesaka user 4.5M Feb 14 11:03 output_fgap.final.fasta
-rw-r--r-- 1 uesaka user 8.5K Feb 14 11:03 output_fgap_4.log
-rw-r--r-- 1 uesaka user 4.5M Feb 14 11:03 output_fgap_3.fasta
-rw-r--r-- 1 uesaka user 38K Feb 14 11:03 output_fgap_3.log
-rw-r--r-- 1 uesaka user 4.5M Feb 14 11:03 output_fgap_2.fasta
-rw-r--r-- 1 uesaka user 87K Feb 14 11:03 output_fgap_2.log
-rw-r--r-- 1 uesaka user 4.5M Feb 14 11:03 output_fgap_1.fasta
-rw-r--r-- 1 uesaka user 221K Feb 14 11:03 output_fgap_1.log
drwx------ 207 uesaka uesaka 36K Feb 14 11:03 ..
statsファイル。
$ cat output_fgap.stats
-------------------- GENERAL STATS --------------------
Closed gaps (N): 97
Before FGAP:
Gaps: 123
Sequences: 73
Length: 4554392bp
GC: 50.7047%
N50: 172167
Min: 314
Max: 414074
Ns: 2621
After FGAP:
Gaps: 26
Sequences: 73
Length: 4555558bp
GC: 50.7279%
N50: 172155
Min: 314
Max: 414012
Ns: 654
Inserted: 3512bp
Removed : 2346bp
Closed gaps by each dataset:
sample_data/DATASET_ecoli_hiseq.fasta: 28 gaps
sample_data/DATASET_ecoli_454.fasta: 69 gaps
Closed gaps by type:
Negative gap: 0 gaps
Zero gap: 0 gaps
Positive gap: 97 gaps
finalのFASTAは、N50はほぼ変化なしだが、gapが123から73に減っている。
引用
FGAP: an automated gap closing tool.
Piro VC, Faoro H, Weiss VA, Steffens MB, Pedrosa FO, Souza EM, Raittz RT1.
BMC Res Notes. 2014 Jun 18;7:371.