macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ショートリードのアセンブラ Clover

 

 次世代シーケンシング技術は、低コストでハイスループットのリードを生産することでゲノミクスに革命をもたらし、この進歩に伴いde novoアセンブラの開発が促された。de Bruijnグラフに基づく複数のアセンブラ法は、Illuminaリードに対して効率的であることが示されてきた。しかし、シーケンサーで発生するシークエンシングエラーは、de novoアセンブリーの解析を複雑にし、下流のゲノム研究の質に影響を与える。
 本論文では、Illuminaプラットフォームで発生するシーケンシングエラーに対応するために、オーバーラップ・レイアウト・コンセンサスの概念に基づく新しいk-merクラスタリングアプローチを利用したClover(クラスタリング指向型de novoアセンブラ)を開発した。さらに、3つのデータセット(Staphylococcus aureus, Rhodobacter sphaeroides, ヒト第14番染色体)について、いくつかのde Bruijnグラフアセンブラ(ABySS, SOAPdenovo, SPAdes, Velvet)、オーバーラップレイアウトコンセンサスアセンブラ(Bambus2, CABOG, MSR-CA)、ストリンググラフアセンブラ(SGA)を用いて、Cloverの性能を評価した。その結果、Cloverは、SOAPdenovoを除き、実行時間において有意な競争力を維持しながら、corrected N50とEサイズの点で優れたアセンブリ品質を達成していることを示した。また、Cloverは、Acinetobacter baumannii TYTH-1とMorganella morganii KT細菌ゲノムの配列決定プロジェクトにも寄与した。
 オーバーラップ・レイアウト・コンセンサス法の柔軟性とde Bruijnグラフ法の効率性を統合したCloverのマーベル・クラスタリングベースのアプローチは、デノボ・アセンブリにおいて高い可能性を秘めている。Cloverはオープンソース・ソフトウェアとして https://oz.nthu.edu.tw/~d9562563/src.html から自由に利用できる。

 

HP

https://oz.nthu.edu.tw/~d9562563/src.html

A simple example

https://oz.nthu.edu.tw/~d9562563/html/testcase.html

 

インストール

ubuntu18.04でテストした。

依存

condaでpython2.7の仮想環境を作ってテストした(macos10.14使用)。

HPからダウンロードする。

tar -zxvf clover-2.0.tar.gz
cd clover-2.0
chmod u+x clover

./clover

$ ./clover 

Please set the input file.

 

Clover is the command line tool. The user can run Clover straightforward with 

following parameters:

 

  $ clover -k <Length of k-mer> [options] -i1 <Input file1> [-i2 <Input file2>]

 

 

If only a read file is used without mate pair, the parameter -i2 can be omitted.

For example, if one library of single read file frag.fastq is used:

  $ clover -k 40 -i1 frag.fastq

 

If paired read files are used, file name of -i2 must correspond to -i1.

 

For example, if one library of paired read files frag1.fq and frag2.fq is used:

  $ clover -k 40 -i1 frag1.fq -i2 frag2.fq

 

If two libraries of paired read files frag1.fq, frag2.fq, short1.fq and short2.fq 

are used, where assume that frag1.fq corresponds to frag2.fq and short1.fq 

corresponds to short2.fq:

  $ clover -k 40 -i1 frag1.fq,short1.fq -i2 frag2.fq,short2.fq

 

The file formats accepted by Clover are 'fasta' and 'fastq', which can be 

distinguished by their filename extensions (.fa, .fasta, .fq, .fastq, .fatq).

 

For more information, please type:

 

 

テストラン

GAGEのデータセットを使ったテストランの流れが記載されている(link)。

wget https://oz.nthu.edu.tw/~d9562563/data/testdata.tar.gz
tar -zxvf testdata.tar.gz
cd testdata/

../clover -k 46 -p 0 -i1 frag_1.fastq,shortjump_1.fastq -i2 frag_2.fastq,shortjump_2.fastq -cs 7 -ss 3 -is 180,3500 -hp 0.6 -pm -ml 200

出力

f:id:kazumaxneo:20201120132734p:plain



 

引用

Clover: a clustering-oriented de novo assembler for Illumina sequences

Ming-Feng Hsieh, Chin Lung Lu & Chuan Yi Tang

BMC Bioinformatics volume 21, Article number: 528 (2020)

 

関連


 

*1

libpython2.7.so.1.0が見えないと言われたので、find / -name libpython2.7.so.1.0して、見つかったパスから/libにシンボリックリンクを張って対処した。

ln -s <path>/to/libpython2.7.so.1.0 /lib/libpython2.7.so.1.0

まだエラーが起こる。

勘違いしていた。問題なし。