次世代シーケンシング技術は、低コストでハイスループットのリードを生産することでゲノミクスに革命をもたらし、この進歩に伴いde novoアセンブラの開発が促された。de Bruijnグラフに基づく複数のアセンブラ法は、Illuminaリードに対して効率的であることが示されてきた。しかし、シーケンサーで発生するシークエンシングエラーは、de novoアセンブリーの解析を複雑にし、下流のゲノム研究の質に影響を与える。
本論文では、Illuminaプラットフォームで発生するシーケンシングエラーに対応するために、オーバーラップ・レイアウト・コンセンサスの概念に基づく新しいk-merクラスタリングアプローチを利用したClover(クラスタリング指向型de novoアセンブラ)を開発した。さらに、3つのデータセット(Staphylococcus aureus, Rhodobacter sphaeroides, ヒト第14番染色体)について、いくつかのde Bruijnグラフアセンブラ(ABySS, SOAPdenovo, SPAdes, Velvet)、オーバーラップレイアウトコンセンサスアセンブラ(Bambus2, CABOG, MSR-CA)、ストリンググラフアセンブラ(SGA)を用いて、Cloverの性能を評価した。その結果、Cloverは、SOAPdenovoを除き、実行時間において有意な競争力を維持しながら、corrected N50とEサイズの点で優れたアセンブリ品質を達成していることを示した。また、Cloverは、Acinetobacter baumannii TYTH-1とMorganella morganii KT細菌ゲノムの配列決定プロジェクトにも寄与した。
オーバーラップ・レイアウト・コンセンサス法の柔軟性とde Bruijnグラフ法の効率性を統合したCloverのマーベル・クラスタリングベースのアプローチは、デノボ・アセンブリにおいて高い可能性を秘めている。Cloverはオープンソース・ソフトウェアとして https://oz.nthu.edu.tw/~d9562563/src.html から自由に利用できる。
HP
https://oz.nthu.edu.tw/~d9562563/src.html
A simple example
https://oz.nthu.edu.tw/~d9562563/html/testcase.html
インストール
ubuntu18.04でテストした。
依存
condaでpython2.7の仮想環境を作ってテストした(macos10.14使用)。
HPからダウンロードする。
tar -zxvf clover-2.0.tar.gz
cd clover-2.0
chmod u+x clover
> ./clover
$ ./clover
Please set the input file.
Clover is the command line tool. The user can run Clover straightforward with
following parameters:
$ clover -k <Length of k-mer> [options] -i1 <Input file1> [-i2 <Input file2>]
If only a read file is used without mate pair, the parameter -i2 can be omitted.
For example, if one library of single read file frag.fastq is used:
$ clover -k 40 -i1 frag.fastq
If paired read files are used, file name of -i2 must correspond to -i1.
For example, if one library of paired read files frag1.fq and frag2.fq is used:
$ clover -k 40 -i1 frag1.fq -i2 frag2.fq
If two libraries of paired read files frag1.fq, frag2.fq, short1.fq and short2.fq
are used, where assume that frag1.fq corresponds to frag2.fq and short1.fq
corresponds to short2.fq:
$ clover -k 40 -i1 frag1.fq,short1.fq -i2 frag2.fq,short2.fq
The file formats accepted by Clover are 'fasta' and 'fastq', which can be
distinguished by their filename extensions (.fa, .fasta, .fq, .fastq, .fatq).
For more information, please type:
テストラン
GAGEのデータセットを使ったテストランの流れが記載されている(link)。
wget https://oz.nthu.edu.tw/~d9562563/data/testdata.tar.gz
tar -zxvf testdata.tar.gz
cd testdata/
../clover -k 46 -p 0 -i1 frag_1.fastq,shortjump_1.fastq -i2 frag_2.fastq,shortjump_2.fastq -cs 7 -ss 3 -is 180,3500 -hp 0.6 -pm -ml 200
出力
引用
Clover: a clustering-oriented de novo assembler for Illumina sequences
Ming-Feng Hsieh, Chin Lung Lu & Chuan Yi Tang
BMC Bioinformatics volume 21, Article number: 528 (2020)
関連
*1
libpython2.7.so.1.0が見えないと言われたので、find / -name libpython2.7.so.1.0して、見つかったパスから/libにシンボリックリンクを張って対処した。
ln -s <path>/to/libpython2.7.so.1.0 /lib/libpython2.7.so.1.0
まだエラーが起こる。
勘違いしていた。問題なし。