Linked readsは、長鎖の単分子DNAをエマルジョンの中に閉じ込めて断片化し、固有のバーコード配列を付加することで、一定の領域内に同じタグ付きのリードを調整する手法。100万くらいの多様なバーコードを持ったライブラリをiiluminaでシーケンスして、バーコード情報からscaffolding(NNN..があるかもしれない)を行ったり、long SVの検出に利用したりする。NGS以前のゲノムプロジェクトで、YACやBACにクローニングしてクローンごとに配列決定することでリピート問題を軽減していたのと意味合いは近い。
LRSIMはこのLinked readsのシミュレータとなる。
Linked readsについて知っておくこと
- A basic introduction to linked-reads
https://community.10xgenomics.com/t5/10x-Blog/A-basic-introduction-to-linked-reads/ba-p/95
- Omics! Omics! IGenomX Launches New Linked Read Chemistry
インストール
ubuntu14.04にインストールした。
perlのライブラリをインストールしておく。
cpanm Inline::C
cpanm Math::Random.pm
本体 Github
https://github.com/aquaskyline/LRSIM
git clone --recursive https://github.com/aquaskyline/LRSIM.git
cd LRSIM
sh make.sh
cd test
sh test.sh #ecoliゲノムによるテストラン
ヘルプ
$ perl simulateLinkedReads.pl
Usage: simulateLinkedReads.pl -r/-g <reference/haplotypes> -p <output prefix> [options]
Reference genome and variants:
-d INT Haplotypes to simulate [2]
-g STRING Haploid FASTAs separated by comma. Overrides -r and -d.
-1 INT 1 SNP per INT base pairs [1000]
-2 INT Minimum length of Indels [1]
-3 INT Maximum length of Indels [50]
-4 INT # of Indels [1000]
-5 INT Minimum length of Duplications and Inversions [1000]
-6 INT Maximum length of Duplications and Inversions [10000]
-7 INT # of Duplications and # of Inversions [100]
-8 INT Minimum length of Translocations [1000]
-9 INT Maximum length of Translocations [10000]
-0 INT # of Translocations [100]
-n Disable all SVs
Illumina reads characteristics:
-e FLOAT Per base error rate of the first read [0.0001,0.0016]
-E FLOAT Per base error rate of the second read [0.0001,0.0016]
-i INT Outer distance between the two ends for pairs [350]
-s INT Standard deviation of the distance for pairs [35]
Linked reads parameters:
-b STRING Barcodes list
-x INT # million reads pairs in total to simulated [600]
-f INT Mean molecule length in kbp [100]
-c STRING Input a list of fragment sizes
-t INT n*1000 partitions to generate [1500]
-m INT Average # of molecules per partition [10]
Miscellaneous:
-u INT Continue from a step [auto]
1. Variant simulation
2. Build fasta index
3. DWGSIM
4. Simulate reads
5. Sort reads extraction manifest
6. Extract reads
-z INT # of threads to run DWGSIM [8]
-o Disable parameter checking
-h Show this help
ラン
test.shは以下のコマンドを実行している。
perl ../simulateLinkedReads.pl -r ./ecoli.fa -p ./test1 -c fragmentSizesList -x 1 -f 50 -t 1 -m 10 -o -4 1 -7 1
raw readsをそのままアライメントした。
5'側にバーコードが付いているのがわかる。
縮小すると、区切りの境界線がぼんやりと見えてくる。
シミュレーションで発生させたリードは十分量のカバレッジがあるが、ヒトゲノムだとかなりカバレッジは薄くなる(linked reads情報は薄いカバレッジでも役に立つ)。
引用
LRSim: a Linked Reads Simulator generating insights for better genome partitioning
Luo R, Sedlazeck FJ, Darby CA, Kelly SM, Schatz MC.
Comput Struct Biotechnol J. 2017 Nov 9;15:478-484. doi: 10.1016/j.csbj.2017.10.002. eCollection 2017.
パックマンの挑戦「10X Genomics と PacBio」 どちらかを選ぶとしたら?
https://pacbiobrothers.blogspot.jp/2016/06/10x-genomics-pacbio.html