2019 7/26 help追記
2019 12/30 タイトルのpacbio削除、コマンド修正
LoRDECはショートリードを使ってロングリードのエラー修正を行う方法論。ロングリードによるセルエラー修正は深いカバレッジを必要とし、コストが高くなるデメリットを持つ。 LoRDECは低コスト且つ高い信頼性をもつショートリードを使い、ロングリードのエラー修正を行う。
公式HP
http://www.atgc-montpellier.fr/lordec/
https://gite.lirmm.fr/lordec/lordec-releases/wikis/home
question
https://www.lirmm.fr/~rivals/lordec/FAQ/
インストール
macos10.14のminoconda3環境で動作確認した。
conda install -c atgc-montpellier -y lordec
> lordec-correct -h
$ lordec-correct -h
LoRDEC v0.9
using GATB v1.4.1
website : http://www.atgc-montpellier.fr/lordec/
FAQ : https://www.lirmm.fr/~rivals/lordec/FAQ/
Usage :
lordec-correct
-i|--long_reads <long read FASTA/Q file>
-2|--short_reads <short read FASTA/Q file(s)>
-k|--kmer_len <k-mer size>
-o|--corrected_read_file <output reads file>
-s|solid_threshold <solid k-mer abundance threshold>
[-t|--trials <number of paths to try from a k-mer>]
[-b|--branch <maximum number of branches to explore>]
[-e|--errorrate <maximum error rate>]
[-T|--threads <number of threads>]
[-S|--stat_file <out statistics file>]
[-c|--complete_search]
[-a|--abundance-max <abundance max threshold for k-mers>]
[-O|--out-tmp <GATB graph creation temporary files directory>]
[-p|--progress]
[-g|--graph_named_like_output]
> lordec-stat -h
$ lordec-stat -h
LoRDEC v0.9
using GATB v1.4.1
website : http://www.atgc-montpellier.fr/lordec/
FAQ : https://www.lirmm.fr/~rivals/lordec/FAQ/
Usage :
lordec-stat -i <long read FASTA/Q file> -2 <short read FASTA/Q file(s)> -k <k-mer size> -s <solid k-mer abundance threshold> -S <out statistics file> [-T <threads>]
reads the <FASTA/Q file(s)> of short reads, then builds and save their de Bruijn graph for k-mers of length <k-mer size> and occurring at least <abundance threshold> time
> lordec-trim -h
$ lordec-trim -h
LoRDEC v0.9
using GATB v1.4.1
website : http://www.atgc-montpellier.fr/lordec/
FAQ : https://www.lirmm.fr/~rivals/lordec/FAQ/
Usage :
lordec-trim -i <FASTA-file> -o <output-file>
docker
実行方法
Pacbioのロングリードとilluminaのショートリードを指定してエラー修正。出力はfastaファイルになる。
lordec-correct -2 illumina.fq.gz -k 19 -s 3 -T 12 -i long_read.fq.gz -o pacbio-corrected.fasta
- -2 <short read FASTA/Q file(s)>
- -T <number of threads>]
- -o <output reads file>
- -s <solid k-mer abundance threshold>
- -k <k-mer size>
statistics (-sで指定した値以上出現するショートリードのk-merのde Bruijn graphの出力)
lordec-stat -2 illumina.fq -k 19 -s 3 -i pacbio.fasta -S output
エラー修正されたリードのトリミング
lordec-trim -i corrected_reads_file -o trimmed.fasta
引用
LoRDEC: accurate and efficient long read error correction
Leena Salmela Eric Rivals
Bioinformatics, Volume 30, Issue 24, 15 December 2014, Pages 3506–3514,