macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ショートリードによるpolishingも行う高速なロングリードアセンブラ Ra

 

 Raは、第3世代シーケンシングによって生成されたrawシーケンシングリードの高速で使いやすいアセンブラである。 以下の図に示すように、RaはMinimap2、Rala、およびRaconで構成されている。

 Raは入力としてFASTA / FASTQフォーマット(gzipで圧縮可能)のrawシーケンシングリードを含む単一のファイルを取り、高精度の一連のコンティグをstdoutにFASTAフォーマットで出力する。 さらに、FASTA / FASTQ形式の第2世代シーケンスリードファイル(gzip圧縮対応)を第2引数として受け取り、ショートリードでpolishingすることで最終的なアセンブリを完成させることができる。

 

 

f:id:kazumaxneo:20190618010005p:plain

Ra flow chart. Githubより

参考スライド ( Rayan Chikhi, CNRS, Univ Lille BiG talk, Lund University)

http://rayan.chikhi.name/pdf/big18_large_genome_assembly.pdf

とても面白い内容です。ワクワクしますね。 Raについては最後の方で触れられています。

 

インストール

ubuntu16.04のminiconda3.4.0.5環境でテストした(docker使用、ホストOS ubuntu18.04)。

依存

  • gcc 4.8+ or clang 3.4+
  • cmake 3.2+

Github

 


#--recursiveをつけて依存するminimap2、racon、そしてralaモジュールも含めてクローンする。
git clone --recursive https://github.com/rvaser/ra.git ra
cd ra
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release ..
make -j 8
cd bin/

> ./ra --help

# ./ra --help

/usr/bin/env: 'python': No such file or directory

root@ebaf20ee92c1:~/ra/build/bin# source ~/.profile 

root@ebaf20ee92c1:~/ra/build/bin# ./ra --help

usage: ra [-h] [-u] [-t THREADS] [--version] -x {ont,pb}

          sequences [ngs_sequences]

 

positional arguments:

  sequences             input file in FASTA/FASTQ format (can be compressed

                        with gzip) containing third generation sequences for

                        assembly

  ngs_sequences         input file in FASTA/FASTQ format (can be compressed

                        with gzip) containing next generation sequences for

                        polishing (default: None)

 

optional arguments:

  -h, --help            show this help message and exit

  -u, --include-unused  output unassembled and unpolished sequences (default:

                        False)

  -t THREADS, --threads THREADS

                        number of threads (default: 1)

  --version             show program's version number and exit

 

required arguments:

  -x {ont,pb}           sequencing technology of input sequences (default:

                        None)

 

 

実行方法

ONTのアセンブリ

ra -t 20 -x ont long_reads.fq > output.fa

GFAファイルとアセンブリされた配列output.faが出力される。

 

Pacbioのアセンブリ

ra -t 20 -x pb long_reads.fq short_reads.fq > output.fa

 

ONTのリードとショートリードのハイブリッドアセンブリ。ペアエンドショートリードデータはあらかじめ結合しておく。

ra -t 20 -x ont long_reads.fq short_reads.fq > output.fa

 

引用

https://github.com/rvaser/ra

 

関連


 

補足 

同名のショートリード用アセンブリツールが別にあります。