macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ハイブリッドエラーコレクションツール LoRDEC

2019 7/26 help追記

2019 12/30 タイトルのpacbio削除、コマンド修正

 

LoRDECはショートリードを使ってロングリードのエラー修正を行う方法論。ロングリードによるセルエラー修正は深いカバレッジを必要とし、コストが高くなるデメリットを持つ。 LoRDECは低コスト且つ高い信頼性をもつショートリードを使い、ロングリードのエラー修正を行う。

 

公式HP

http://www.atgc-montpellier.fr/lordec/

wiki

https://gite.lirmm.fr/lordec/lordec-releases/wikis/home

question

https://www.lirmm.fr/~rivals/lordec/FAQ/

 


インストール

macos10.14のminoconda3環境で動作確認した。

conda install -c atgc-montpellier -y lordec

lordec-correct -h

$ lordec-correct -h

LoRDEC v0.9

using GATB v1.4.1

website : http://www.atgc-montpellier.fr/lordec/

FAQ : https://www.lirmm.fr/~rivals/lordec/FAQ/

 

Usage :

 

lordec-correct

 

-i|--long_reads <long read FASTA/Q file>

-2|--short_reads <short read FASTA/Q file(s)>

-k|--kmer_len <k-mer size>

-o|--corrected_read_file <output reads file>

-s|solid_threshold <solid k-mer abundance threshold>

[-t|--trials <number of paths to try from a k-mer>]

[-b|--branch <maximum number of branches to explore>]

[-e|--errorrate <maximum error rate>]

[-T|--threads <number of threads>]

[-S|--stat_file <out statistics file>]

[-c|--complete_search]

[-a|--abundance-max <abundance max threshold for k-mers>]

[-O|--out-tmp <GATB graph creation temporary files directory>]

[-p|--progress]

[-g|--graph_named_like_output]

 

lordec-stat -h

$ lordec-stat -h

LoRDEC v0.9

using GATB v1.4.1

website : http://www.atgc-montpellier.fr/lordec/

FAQ : https://www.lirmm.fr/~rivals/lordec/FAQ/

 

Usage :

 

lordec-stat -i <long read FASTA/Q file> -2 <short read FASTA/Q file(s)> -k <k-mer size> -s <solid k-mer abundance threshold> -S <out statistics file> [-T <threads>]

         reads the <FASTA/Q file(s)> of short reads, then builds and save their de Bruijn graph for k-mers of length <k-mer size> and occurring at least <abundance threshold> time

 

> lordec-trim -h

$ lordec-trim -h

LoRDEC v0.9

using GATB v1.4.1

website : http://www.atgc-montpellier.fr/lordec/

FAQ : https://www.lirmm.fr/~rivals/lordec/FAQ/

 

Usage :

 

lordec-trim -i <FASTA-file> -o <output-file>

 

docker


 

実行方法

Pacbioのロングリードとilluminaのショートリードを指定してエラー修正。出力はfastaファイルになる。

lordec-correct -2 illumina.fq.gz -k 19 -s 3 -T 12 -i long_read.fq.gz -o pacbio-corrected.fasta
  • -2 <short read FASTA/Q file(s)>
  • -T <number of threads>]
  • -o <output reads file>
  • -s <solid k-mer abundance threshold>
  • -k <k-mer size> 

 

statistics (-sで指定した値以上出現するショートリードのk-merのde Bruijn graphの出力)

lordec-stat -2 illumina.fq -k 19 -s 3 -i pacbio.fasta -S output

 

エラー修正されたリードのトリミング

lordec-trim -i corrected_reads_file -o trimmed.fasta

 

引用

LoRDEC: accurate and efficient long read error correction

Leena Salmela Eric Rivals

Bioinformatics, Volume 30, Issue 24, 15 December 2014, Pages 3506–3514,