macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ペアエンドリードを使いミスアセンブリを検出する misFinder

  ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoのアプローチでミスアセンブルを検出する。すなわち、リードをアセンブルした配列にアライメントし、カバレッジ情報、インサートサイズの変動などの情報を使い、異常なアセンブルがないか解析する方法となる。ただしこの方法は、リアルデータのカバレッジのばらつきやscaffoldsのギャップなどでfalse positiveが出る傾向にある。

  misFinderは、リファレンスベースの手法とDe novoの手法をハイブリッドに使うミスアセンブルの検出ツール。複数の情報を適用して、バイアスの少ない検出ができるとされる。

 

 

インストール

ubuntu16.04でテストした。

本体 Github

git clone https://github.com/hitbio/misFinder.git 
cd misFinder/
chmod a+x autogen.sh
./autogen.sh
cd bin/
./mf -h

$ ./mf -h

misFinder: v0.4.05.05

Released : Oct 17, 2015

 

Usage: mf <command> [option]

    metrics     Compute the assembly metrics

    misass      Compute mis-assemblies

    all         Do all the above in turn

 

PROGRAM OPTIONS:

  1) metrics -- compute the metrics:

    -conf <FILE>       Configuration file. It is required.

    -m <INT>           The minimal query length. Default is 100.

    -pt <FLOAT>        The minimal identity percentage for matched queries and 

                       matched segments. Default is 0.95.

    -t <INT>           The number of threads for the alignment between queries 

                       and subjects. Default is the number of CPU cores.

    -o <STR>

    -out <STR>         Output directory for the output files. Default is "./"

    -h

    -help              Show help information.

  2) misass -- compute mis-assemblies:

    -conf <FILE>       Configuration file. It is required.

    -i <INT>           Minimal indel size. Default is 5 bp.

    -t <INT>           The number of threads for reads alignment. Default is

                       the number of CPU cores.

    -sc <INT>          Single-cell paired-end data flag. Default is 0.

                       0: standard genomic DNA prepared from culture;

                       1: single-cell data.

    -o <STR>

    -out <STR>         Output directory for the output files. Default is "./"

    -h

    -help              Show help information.

 

パスを通しておく。

 

ラン

confファイルに参照のリファレンスFASTAアセンブルして得たFASTA、paired-endのfastqのパスを記載する。

> cat conf_example

f:id:kazumaxneo:20180213195334j:plain

 

confファイルを指定してランする。

mf all -conf config_file -o output

出力はミスアアセンブルのレポートと、それが修復されたFASTAファイルなどになる。

 

 

引用

misFinder: identify mis-assemblies in an unbiased manner using reference and paired-end reads.

Zhu X, Leung HC, Wang R, Chin FY, Yiu SM, Quan G, Li Y、 Zhang R, Jiang Q, Liu B, Dong Y, Zhou G, Wang Y.

BMC Bioinformatics. 2015 Nov 16;16:386.