ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoのアプローチでミスアセンブルを検出する。すなわち、リードをアセンブルした配列にアライメントし、カバレッジ情報、インサートサイズの変動などの情報を使い、異常なアセンブルがないか解析する方法となる。ただしこの方法は、リアルデータのカバレッジのばらつきやscaffoldsのギャップなどでfalse positiveが出る傾向にある。
misFinderは、リファレンスベースの手法とDe novoの手法をハイブリッドに使うミスアセンブルの検出ツール。複数の情報を適用して、バイアスの少ない検出ができるとされる。
インストール
ubuntu16.04でテストした。
本体 Github
git clone https://github.com/hitbio/misFinder.git
cd misFinder/
chmod a+x autogen.sh
./autogen.sh
cd bin/
./mf -h
$ ./mf -h
misFinder: v0.4.05.05
Released : Oct 17, 2015
Usage: mf <command> [option]
metrics Compute the assembly metrics
misass Compute mis-assemblies
all Do all the above in turn
PROGRAM OPTIONS:
1) metrics -- compute the metrics:
-conf <FILE> Configuration file. It is required.
-m <INT> The minimal query length. Default is 100.
-pt <FLOAT> The minimal identity percentage for matched queries and
matched segments. Default is 0.95.
-t <INT> The number of threads for the alignment between queries
and subjects. Default is the number of CPU cores.
-o <STR>
-out <STR> Output directory for the output files. Default is "./"
-h
-help Show help information.
2) misass -- compute mis-assemblies:
-conf <FILE> Configuration file. It is required.
-i <INT> Minimal indel size. Default is 5 bp.
-t <INT> The number of threads for reads alignment. Default is
the number of CPU cores.
-sc <INT> Single-cell paired-end data flag. Default is 0.
0: standard genomic DNA prepared from culture;
1: single-cell data.
-o <STR>
-out <STR> Output directory for the output files. Default is "./"
-h
-help Show help information.
パスを通しておく。
ラン
confファイルに参照のリファレンスFASTA、アセンブルして得たFASTA、paired-endのfastqのパスを記載する。
> cat conf_example
confファイルを指定してランする。
mf all -conf config_file -o output
出力はミスアアセンブルのレポートと、それが修復されたFASTAファイルなどになる。
引用
misFinder: identify mis-assemblies in an unbiased manner using reference and paired-end reads.
Zhu X, Leung HC, Wang R, Chin FY, Yiu SM, Quan G, Li Y、 Zhang R, Jiang Q, Liu B, Dong Y, Zhou G, Wang Y.
BMC Bioinformatics. 2015 Nov 16;16:386.