macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NGSのリード情報を使いスキャッホールドのギャップを埋める FGAP

 

FGAPはドラフトゲノムのギャップを埋めるためのツール。BLASTを使用して、複数のコンティグをドラフトゲノムアセンブリに対して整列させ、ギャップを埋めるために最良のシーケンスを検出する。ヒトchr14では、ギャップの数を35%減少させたと述べられている。

 

インストール

cent OSに導入した。

依存

  • blast+
  • MCR

MATLAB Runtimeは本体とともにSorceForgeからダウンロードできる。ダウンロードしたら解凍して、インストールディレクトリを指定して./installMCR.shを実行する。homeのMCR/にインストールするなら

cd MCR_LINUX64b/
./installMCR.sh /home/uesaka/MCR/

 

 

本体 SourceForge

https://sourceforge.net/projects/fgap/files/?source=navbar

 

 

ラン

上で導入したMATLAB Runtimeのインストールディレクトリを指定してランする。

 

テストデータを実行する。454のリードでアセンブルしたcontigを伸ばすために、454のリードと、illumina hiseqのリードを指定している。

 ./run_fgap.sh MCR/v717/ -d sample_data/DRAFT_ecoli_hiseq454.fasta -a "sample_data/DATASET_ecoli_hiseq.fasta,sample_data/DATASET_ecoli_454.fasta" -b blast/

1分程度でテストランは終わる。中間ファイルも含めて複数ファイルが作られる。

> ls -alth

$ ls -alth

total 355M

drwxr-xr-x   7 uesaka user   4.0K Feb 14 11:03 .

-rw-r--r--   1 uesaka user   2.2K Feb 14 11:03 output_fgap.stats

-rw-r--r--   1 uesaka user   4.5M Feb 14 11:03 output_fgap_4.fasta

-rw-r--r--   1 uesaka user   4.5M Feb 14 11:03 output_fgap.final.fasta

-rw-r--r--   1 uesaka user   8.5K Feb 14 11:03 output_fgap_4.log

-rw-r--r--   1 uesaka user   4.5M Feb 14 11:03 output_fgap_3.fasta

-rw-r--r--   1 uesaka user    38K Feb 14 11:03 output_fgap_3.log

-rw-r--r--   1 uesaka user   4.5M Feb 14 11:03 output_fgap_2.fasta

-rw-r--r--   1 uesaka user    87K Feb 14 11:03 output_fgap_2.log

-rw-r--r--   1 uesaka user   4.5M Feb 14 11:03 output_fgap_1.fasta

-rw-r--r--   1 uesaka user   221K Feb 14 11:03 output_fgap_1.log

drwx------ 207 uesaka uesaka  36K Feb 14 11:03 ..

 

statsファイル。

$ cat output_fgap.stats

-------------------- GENERAL STATS --------------------

 

Closed gaps (N): 97

 

Before FGAP: 

 Gaps: 123

 Sequences: 73

 Length: 4554392bp 

 GC: 50.7047%

 N50: 172167

 Min: 314

 Max: 414074

 Ns: 2621

 

After FGAP: 

 Gaps: 26

 Sequences: 73

 Length: 4555558bp 

 GC: 50.7279%

 N50: 172155

 Min: 314

 Max: 414012

 Ns: 654

 

Inserted: 3512bp

Removed : 2346bp

 

Closed gaps by each dataset:

 sample_data/DATASET_ecoli_hiseq.fasta: 28 gaps

 sample_data/DATASET_ecoli_454.fasta: 69 gaps

 

Closed gaps by type:

 Negative gap: 0 gaps

 Zero gap: 0 gaps

 Positive gap: 97 gaps

 

 finalのFASTAは、N50はほぼ変化なしだが、gapが123から73に減っている。

 

 

引用

FGAP: an automated gap closing tool.

Piro VC, Faoro H, Weiss VA, Steffens MB, Pedrosa FO, Souza EM, Raittz RT1.

BMC Res Notes. 2014 Jun 18;7:371.