2020 5/23 タイトル補足、ravenインストール追記
2020 8/11 引用にpreprint追記
2021 5/24 論文引用
2022/06/08 help更新
Ra(現在はRaven)は、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。
Raは入力としてFASTA / FASTQフォーマット(gzipで圧縮可能)のrawシーケンシングリードを含む単一のファイルを取り、高精度の一連のコンティグをstdoutにFASTAフォーマットで出力する。 さらに、FASTA / FASTQ形式の第2世代シーケンスリードファイル(gzip圧縮対応)を第2引数として受け取り、ショートリードでpolishingすることで最終的なアセンブリを完成させることができる。
Ra flow chart. Githubより
参考スライド ( Rayan Chikhi, CNRS, Univ Lille BiG talk, Lund University)
http://rayan.chikhi.name/pdf/big18_large_genome_assembly.pdf
とても面白い内容です。ワクワクしますね。 Raについては最後の方で触れられています。
2021/11/29
New release of Raven, long-read de novo assembler https://t.co/t7mCEPvLbC. In most cases, it improves contiguity by at least 10%. W/ @robertvaser
— Mile Sikic (@msikic) 2021年11月29日
Raven version 1.5.0 - up to 2x faster (increases with data accuracy), improves NGA50 in most cases, properly handles small plasmids. w/ @robertvaser https://t.co/t7mCEPvLbC
— Mile Sikic (@msikic) 2021年3月24日
Raven - rapid and easy to use long read de novo assembler which produces the least number of contigs https://t.co/YBvpY6mYuX w/ @robertvaser. Any comments are more than welcome!
— Mile Sikic (@msikic) 2020年8月11日
インストール
ubuntu16.04のminiconda3.4.0.5環境でテストした(docker使用、ホストOS ubuntu18.04)。
依存
- gcc 4.8+ or clang 3.4+
- cmake 3.2+
#--recursiveをつけて依存するminimap2、racon、そしてralaモジュールも含めてクローンする。
git clone --recursive https://github.com/rvaser/ra.git ra
cd ra
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release ..
make -j 8
cd bin/
> ./ra --help
# ./ra --help
/usr/bin/env: 'python': No such file or directory
root@ebaf20ee92c1:~/ra/build/bin# source ~/.profile
root@ebaf20ee92c1:~/ra/build/bin# ./ra --help
usage: ra [-h] [-u] [-t THREADS] [--version] -x {ont,pb}
sequences [ngs_sequences]
positional arguments:
sequences input file in FASTA/FASTQ format (can be compressed
with gzip) containing third generation sequences for
assembly
ngs_sequences input file in FASTA/FASTQ format (can be compressed
with gzip) containing next generation sequences for
polishing (default: None)
optional arguments:
-h, --help show this help message and exit
-u, --include-unused output unassembled and unpolished sequences (default:
False)
-t THREADS, --threads THREADS
number of threads (default: 1)
--version show program's version number and exit
required arguments:
-x {ont,pb} sequencing technology of input sequences (default:
None)
#bioconda
mamba create -n raven -y
conda activate raven
mamba install -c bioconda raven-assembler -y
#from source
git clone --recursive https://github.com/lbcb-sci/raven.git raven
cd raven && mkdir build && cd build
cmake -DCMAKE_BUILD_TYPE=Release .. && make
./bin/raven
> ./raven
usage: raven [options ...] <sequences> [<sequences> ...]
# default output is to stdout in FASTA format
<sequences>
input file in FASTA/FASTQ format (can be compressed with gzip)
options:
-k, --kmer-len <int>
default: 15
length of minimizers used to find overlaps
-w, --window-len <int>
default: 5
length of sliding window from which minimizers are sampled
-f, --frequency <double>
default: 0.001
threshold for ignoring most frequent minimizers
-p, --polishing-rounds <int>
default: 2
number of times racon is invoked
-m, --match <int>
default: 3
score for matching bases
-n, --mismatch <int>
default: -5
score for mismatching bases
-g, --gap <int>
default: -4
gap penalty (must be negative)
--graphical-fragment-assembly <string>
prints the assembly graph in GFA format
--resume
resume previous run from last checkpoint
--disable-checkpoints
disable checkpoint file creation
-t, --threads <int>
default: 1
number of threads
--version
prints the version number
-h, --help
prints the usage
実行方法
ONTのアセンブリ。
ra -t 20 -x ont long_reads.fq > output.fa
GFAファイルとアセンブリされた配列output.faが出力される。
Pacbioのアセンブリ。
ra -t 20 -x pb long_reads.fq short_reads.fq > output.fa
ONTのリードとショートリードのハイブリッドアセンブリ。ペアエンドショートリードデータはあらかじめ結合しておく。
ra -t 20 -x ont long_reads.fq short_reads.fq > output.fa
引用
Raven: a de novo genome assembler for long reads
Robert Vaser, Mile Sikic
bioRxiv, Posted August 10, 2020
2021 5/24
Time- and memory-efficient genome assembly with Raven | Nature Computational Science
論文中のパフォーマンス比較結果をみると多くのmetricsについてバランスの取れた結果を出しており、Ravenが優秀なアセンブラであることが分かりますね。
関連
補足
同名のショートリード用アセンブリツールが別にあります。