macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ヌクレオチド配列をアセンブリグラフにアラインメントする SPAligner

 

 ゲノムアセンブリのグラフベースの表現は、最近では遺伝子検索からハプロタイプ分離まで、さまざまなアプリケーションで利用されている。これらのアプリケーションの多くは、アセンブリグラフへの配列のアラインメントに基づいているが、このようなアラインメントを見つけるための既存のソフトウェアツールには重要な制限がある。

 長く分岐した配列をアセンブリグラフにアラインメントするための新しいツールSPAlignerを紹介し、SPAlignerが第三世代シーケンシングデータをマッピングするための効率的なソリューションであること、また複雑なメタゲノムデータセットの既知遺伝子の同定を容易にすることを実証した。

 本研究では、配列からゲノムへのアセンブリアラインメント問題を解決するためのグラフベースのアプローチの開発を促進する。SPAligner は SPAdes ツールライブラリの一部として実装されており、https://github.com/ablab/spades/archive/spaligner-paper.zip から入手可能である。

 

インストール

Github

README

#early accessバージョンもあるが、ここでは3.14.0を入れる。
#3.14.0 linux
wget http://cab.spbu.ru/files/release3.14.0/SPAdes-3.14.0-Linux.tar.gz
tar -xzf SPAdes-3.14.0-Linux.tar.gz
cd SPAdes-3.14.0-Linux/bin/

#build from source
git clone https://github.com/ablab/spades.git
cd spades/assembler/
mkdir build && cd build && cmake ../src
make spaligner

./spaligner

$ ./spaligner 

ERROR: No input YAML was specified

ERROR: Sequence type is not provided (nanopore or pacbio)

ERROR: Path to file with sequences is not provided

ERROR: Path to file with graph is not provided

ERROR: k-mer value is not provided

SYNOPSIS

        ./spaligner <aligner parameters description (in YAML)> -d <value> -s <value> -g <value> -k <value> [-t <value>] [-o <dir>]

 

OPTIONS

        -d, --datatype <value>

                    type of sequences: nanopore, pacbio

 

        -s, --sequences <value>

                    path to fasta/fastq file with sequences

 

        -g, --graph <value>

                    path to GFA-file or SPAdes saves folder

 

        -k, --kmer <value>

                    graph k-mer size (odd value)

 

        -t, --threads <value>

                    # of threads to use

 

        -o, --outdir <dir>

                    output directory

 

 

 実行方法

configのyamlファイル、fastqとアセンブリグラフファイルを指定する。ロングリードシークエンシングデータの種類について、nanoporeかpacbioのどちらかを指定する必要がある。

spaligner spaligner_config.yaml -d nanopore -s input.fq -g assembly_graph.gfa -k <k-mer value> -t 12 -o output

様々な形式(tsv, fasta, GPAなど)でグラフへのアラインメント結果を出力できる。

 

出力フォーマットの詳細は、preprintと上にリンクを張ったGithub - READMEを読んでください。

引用

SPAligner: Alignment of Long Diverged Molecular Sequences to Assembly Graphs

Tatiana Dvorkina, Dmitry Antipov, Anton Korobeynikov, Sergey Nurk

bioRxiv, Posted August 23, 2019