RNA seq用のターゲットアセンブリツール Kollector

　非モデル生物のための高品質のリファレンスゲノム配列の作製は、特に大きなゲノム（> 1Gbp）では依然として挑戦的な取り組みである。このようなプロジェクトでは、デノボでの全ゲノムアセンブリは、通常、数種の異なるタイプのDNAライブラリーの数十億のシーケンシングリードを必要とする。これらの大量のデータを処理し、それらを使用してゲノムを組み立てるには、通常、高性能コンピューティング環境、重要な専門知識、および特殊なソフトウェアへのアクセスが必要となる（論文より　Nagarajan and Pop、2013）。リファレンス配列を生成するための魅力的な代替法は、目的の遺伝子/転写物配列のターゲットアセンブリによって達成され得る。たとえほとんどのトランスクリプトーム配列情報をもたない種であっても、関連する生物からの相同遺伝子配列のような、デノボアセンブリを助けるために使用され得る既存の配列が存在する可能性がある。これらのデータの利用はアセンブリ問題を局在化するのに役立ち、所望の配列（例えば、遺伝子領域）が完全に再構築されることを保証する。このメリット、全ゲノムアセンブリに比べて複雑さの低減および計算コストの削減である。しかしながら、実際には、ターゲット配列に関連するリードを同定するための計算コストは、ターゲット内に見出されない変異および新規配列のために依然として困難である。

　特定のターゲットの再構成のための最初のソリューションは、アライメントフリーのターゲットデノボアセンブリソフトウェアであるTASRで達成された（Warren and Holt、2011）。この方法に続いて、プロセスを導くためにリードアライメントを使用するMapembler（Peterlongo and Chikhi、2012）があり、よりメモリ効率が高く高速な代替手段を提示した。これらの先駆的なターゲットアセンブリテクニックは、もともと大きなショットガンデータから特定の転写バリアント、融合転写物または遺伝子を再構築するように設計されており、現在、ヒトの健康に関する研究に応用されている（Brown et al、2014; Warren et al、2012）（一部略）。

不完全な領域を再構築しギャップを埋めるするために、現代の方法のほとんどは、反復リードを呼び出すプロセスを採用している。 MITObim（Hahn et al、2013）、GRAbB（Brankovics et al、2016）およびaTRAM（Allen et al、2015）は、不完全な配列から新規領域を拡張するために初期の反復ステップに使われたリードを使う。 MITObimは、ミトコンドリアゲノムを組み立てるように設計されており、ターゲットと31-mer（長さ31の部分配列）の配列を共有するリードからターゲットが再構成されるまでシーケンスリードセットを何度も循環させる。 GRAbBは同様の方法で動作するが、一度に複数のターゲットのリードを使うように設計されているため、MITObimを計算上実行できなかった（Brankovics et al、2016）。最後に、aTRAMは関連するゲノムからオーソログを組み立てるために設計されており、BLAST（Altschul et al、1990）を利用して配列の一部を索引付けするため、複数回の反復では、より高いメモリ使用量になる。これらのツールのそれぞれは、複数のリード採用サイクルの後に、確立されたアセンブリツール（例えばVelvet; Zerbino and Birney、2008）を使用してアセンブリを実行し、その後の繰り返しにバイトシーケンスとして使われ、拡張される。

　RNA-Seq技術とde novo assembly tools（Grabherr et al、2011; Peng et al、2013; Robertson et al。、2010）の進歩により、非モデル生物からの高品質トランスクリプトームがますます利用可能になり、ターゲットアセンブリの貴重なリソースになっている。この論文では、全トランスクリプトームアセンブリを使用して全ゲノムショットガンシーケンシングリードをフィルタリングおよび分類し、対応する遺伝子座のデノボアセンブリをローカライズすることができる、アライメントフリーのターゲットアセンブリパイプラインであるKollectorを紹介する。パイプラインは、BioBloom Tools（BBT）（Chu et al、2014）内に実装されたプログレッシブブルームフィルタと呼ばれる新しいデータ構造を使用して、ターゲット座に関連するシーケンスリードを収集し、de Bruijn graph（Pevzner et al。、2001）アセンブラであるABySS（Simpson et al。、2009）でアセンブルする。 Kollectorはイントロン領域を反復的に拡張することができ、実際にはプログレッシブブルームフィルタを貪欲に配置することによって、以前の方法より反復回数は少ない。我々（著者ら）は、Caenorhabditis elegansとHomo sapiensの遺伝子を使い、Kollectorと公表された4つのアセンブリツールを比較による相対的効果を実証する。また、応用としてKollectorの比較ゲノムミクスおよびガンゲノミクスへの使用事例を示す。

インストール

cent OSにインストールした。

依存

ABySS(min v1.5.x, tested on 2.0.3 )
BioBloomTools (tested on v2.0.12)
GMAP/GSNAP
BWA
Samtools

GMAP以外はbrewで導入できる

brew tap brewsci/science
brew tap brewsci/bio
brew install abyss samtools bwa biobamtools

GMAPはgithub（リンク）からダウンロードしてビルドする（./configure && make）。

本体　Github

https://github.com/bcgsc/kollector

ダウンロードすれば使える。

git clone https://github.com/bcgsc/kollector.git
cd Kollector/bin/
./kollector.sh #ヘルプ

$ ./kollector.sh

Error: number of file args must be 3

Usage: kollector.sh [options] <seed> <pet_read1.fq> <pet_read2.fq>

Description:

Do a targeted assembly using ABySS. The input files are

PET sequencing reads which must be a FASTA/FASTQ pair and a

seed sequence FASTA file to recruit reads. The input files may be gzipped.

AbySS(1.5+),BioBloom Tools and GMAP should be in your path.

Options:

-h show this help message

-j N threads [1]

-r N min match length for tagging reads. Decimal value are

the proportion of the valid k-mers and integer values

will require that minimum number of bases to match [0.7]

-s N min match length for recruiting reads [0.50]

-k N k-mer size for ABySS contig assembly [32]

-K N k-mer size for read overlap detection [25]

-n N max k-mers to recruit in total [10000]

-o FILE output file prefix ['kollector']

-p FILE Bloom filter containing repeat k-mers for

exclusion from scoring calculations; must match

k-mer size selected with -K opt [disabled]

-B N pass bloom filter size to abyss 2.0.2

(B option, to be written: ex - 100M, optional)

kollector.sh、kollector-multiple.sh、kollector-extract.sh各々が使われるので、binにパスを通しておく。

export PATH="$HOME/kollector/bin:$PATH"

ラン

テストラン

cd kollector/test/

#ツールとC.elegansのテストデータのダウンロード、およびアセンブリ。zshとlinuxbrewが必要(apt installで導入可)。
make

kollector.sh <params> seed.fa read1.fa read2.fa

<seed.fa> is the input transcript sequence in a form of FASTA file to recruit reads.
<read1.fa> and <read2.fa> are the PET sequencing reads and could be in a form of FASTA/FASTQ files. All the input files can be gzipped.

kollector.shを繰り返しランするには、kollector-multiple.shを使う。kollector-multiple.shは、-rを徐々に下げ、 kollector.shを繰り返し回す。アセンブリが成功したターゲットはその都度除外されていく。デフォルトでは試行回数は５回。

kollector-multiple.sh

-r <N> min match length for tagging reads. Decimal value are the proportion of the valid k-mers and integer values will require that minimum number of bases to match [0.7]
-max_iterations < N> number of iterations to be performed [5]
-decrement <N> decrement of the r parameter in each iteration [0.1]

テスト時はエラーを起こした。

引用

Kollector: transcript-informed, targeted de novo assembly of gene loci.

Kucuk E, Chu J, Vandervalk BP, Hammond SA, Warren RL, Birol I.

Bioinformatics. 2017 Jun 15;33(12):1782-1788.