ゲノムアセンブリのグラフベースの表現は、最近では遺伝子検索からハプロタイプ分離まで、さまざまなアプリケーションで利用されている。これらのアプリケーションの多くは、アセンブリグラフへの配列のアラインメントに基づいているが、このようなアラインメントを見つけるための既存のソフトウェアツールには重要な制限がある。
長く分岐した配列をアセンブリグラフにアラインメントするための新しいツールSPAlignerを紹介し、SPAlignerが第三世代シーケンシングデータをマッピングするための効率的なソリューションであること、また複雑なメタゲノムデータセットの既知遺伝子の同定を容易にすることを実証した。
本研究では、配列からゲノムへのアセンブリアラインメント問題を解決するためのグラフベースのアプローチの開発を促進する。SPAligner は SPAdes ツールライブラリの一部として実装されており、https://github.com/ablab/spades/archive/spaligner-paper.zip から入手可能である。
インストール
README
#early accessバージョンもあるが、ここでは3.14.0を入れる。
#3.14.0 linux
wget http://cab.spbu.ru/files/release3.14.0/SPAdes-3.14.0-Linux.tar.gz
tar -xzf SPAdes-3.14.0-Linux.tar.gz
cd SPAdes-3.14.0-Linux/bin/
#build from source
git clone https://github.com/ablab/spades.git
cd spades/assembler/
mkdir build && cd build && cmake ../src
make spaligner
> ./spaligner
$ ./spaligner
ERROR: No input YAML was specified
ERROR: Sequence type is not provided (nanopore or pacbio)
ERROR: Path to file with sequences is not provided
ERROR: Path to file with graph is not provided
ERROR: k-mer value is not provided
SYNOPSIS
./spaligner <aligner parameters description (in YAML)> -d <value> -s <value> -g <value> -k <value> [-t <value>] [-o <dir>]
OPTIONS
-d, --datatype <value>
type of sequences: nanopore, pacbio
-s, --sequences <value>
path to fasta/fastq file with sequences
-g, --graph <value>
path to GFA-file or SPAdes saves folder
-k, --kmer <value>
graph k-mer size (odd value)
-t, --threads <value>
# of threads to use
-o, --outdir <dir>
output directory
実行方法
configのyamlファイル、fastqとアセンブリグラフファイルを指定する。ロングリードシークエンシングデータの種類について、nanoporeかpacbioのどちらかを指定する必要がある。
spaligner spaligner_config.yaml -d nanopore -s input.fq -g assembly_graph.gfa -k <k-mer value> -t 12 -o output
様々な形式(tsv, fasta, GPAなど)でグラフへのアラインメント結果を出力できる。
出力フォーマットの詳細は、preprintと上にリンクを張ったGithub - READMEを読んでください。
引用
SPAligner: Alignment of Long Diverged Molecular Sequences to Assembly Graphs
Tatiana Dvorkina, Dmitry Antipov, Anton Korobeynikov, Sergey Nurk
bioRxiv, Posted August 23, 2019