macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ショートリードによるpolishingも行う高速なロングリードアセンブラ Raven (旧名 Ra)

2020 5/23 タイトル補足、ravenインストール追記

2020 8/11 引用にpreprint追記

2021 5/24 論文引用

2022/06/08 help更新

 

 Ra(現在はRaven)は、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。

 Raは入力としてFASTA / FASTQフォーマット(gzipで圧縮可能)のrawシーケンシングリードを含む単一のファイルを取り、高精度の一連のコンティグをstdoutにFASTAフォーマットで出力する。 さらに、FASTA / FASTQ形式の第2世代シーケンスリードファイル(gzip圧縮対応)を第2引数として受け取り、ショートリードでpolishingすることで最終的なアセンブリを完成させることができる。

 

 

f:id:kazumaxneo:20190618010005p:plain

Ra flow chart. Githubより

参考スライド ( Rayan Chikhi, CNRS, Univ Lille BiG talk, Lund University)

http://rayan.chikhi.name/pdf/big18_large_genome_assembly.pdf

http://rayan.chikhi.name/pdf/big18_large_genome_assembly.pdf

とても面白い内容です。ワクワクしますね。 Raについては最後の方で触れられています。

 

2021/11/29

 

インストール

ubuntu16.04のminiconda3.4.0.5環境でテストした(docker使用、ホストOS ubuntu18.04)。

依存

  • gcc 4.8+ or clang 3.4+
  • cmake 3.2+

Github

 


#--recursiveをつけて依存するminimap2、racon、そしてralaモジュールも含めてクローンする。
git clone --recursive https://github.com/rvaser/ra.git ra
cd ra
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release ..
make -j 8
cd bin/

> ./ra --help

# ./ra --help

/usr/bin/env: 'python': No such file or directory

root@ebaf20ee92c1:~/ra/build/bin# source ~/.profile 

root@ebaf20ee92c1:~/ra/build/bin# ./ra --help

usage: ra [-h] [-u] [-t THREADS] [--version] -x {ont,pb}

          sequences [ngs_sequences]

 

positional arguments:

  sequences             input file in FASTA/FASTQ format (can be compressed

                        with gzip) containing third generation sequences for

                        assembly

  ngs_sequences         input file in FASTA/FASTQ format (can be compressed

                        with gzip) containing next generation sequences for

                        polishing (default: None)

 

optional arguments:

  -h, --help            show this help message and exit

  -u, --include-unused  output unassembled and unpolished sequences (default:

                        False)

  -t THREADS, --threads THREADS

                        number of threads (default: 1)

  --version             show program's version number and exit

 

required arguments:

  -x {ont,pb}           sequencing technology of input sequences (default:

                        None)

Raven

#bioconda
mamba create -n raven -y
conda activate raven
mamba install -c bioconda raven-assembler -y

#from source
git clone --recursive https://github.com/lbcb-sci/raven.git raven
cd raven && mkdir build && cd build
cmake -DCMAKE_BUILD_TYPE=Release .. && make
./bin/raven

> ./raven 

usage: raven [options ...] <sequences> [<sequences> ...]

 

  # default output is to stdout in FASTA format

  <sequences>

    input file in FASTA/FASTQ format (can be compressed with gzip)

 

  options:

    -k, --kmer-len <int>

      default: 15

      length of minimizers used to find overlaps

    -w, --window-len <int>

      default: 5

      length of sliding window from which minimizers are sampled

    -f, --frequency <double>

      default: 0.001

      threshold for ignoring most frequent minimizers

    -p, --polishing-rounds <int>

      default: 2

      number of times racon is invoked

    -m, --match <int>

      default: 3

      score for matching bases

    -n, --mismatch <int>

      default: -5

      score for mismatching bases

    -g, --gap <int>

      default: -4

      gap penalty (must be negative)

    --graphical-fragment-assembly <string>

      prints the assembly graph in GFA format

    --resume

      resume previous run from last checkpoint

    --disable-checkpoints

      disable checkpoint file creation

    -t, --threads <int>

      default: 1

      number of threads

    --version

      prints the version number

    -h, --help

      prints the usage

 

 

 

実行方法

ONTのアセンブリ

ra -t 20 -x ont long_reads.fq > output.fa

GFAファイルとアセンブリされた配列output.faが出力される。

 

Pacbioのアセンブリ

ra -t 20 -x pb long_reads.fq short_reads.fq > output.fa

 

ONTのリードとショートリードのハイブリッドアセンブリ。ペアエンドショートリードデータはあらかじめ結合しておく。

ra -t 20 -x ont long_reads.fq short_reads.fq > output.fa

 

引用

Raven: a de novo genome assembler for long reads

Robert Vaser, Mile Sikic

bioRxiv, Posted August 10, 2020

 

2021 5/24

Time- and memory-efficient genome assembly with Raven | Nature Computational Science

 

論文中のパフォーマンス比較結果をみると多くのmetricsについてバランスの取れた結果を出しており、Ravenが優秀なアセンブラであることが分かりますね。

 

 

 

関連


 

補足 

同名のショートリード用アセンブリツールが別にあります。