macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Linked readsのシミュレーターLRSIM

 

Linked readsは、長鎖の単分子DNAをエマルジョンの中に閉じ込めて断片化し、固有のバーコード配列を付加することで、一定の領域内に同じタグ付きのリードを調整する手法。100万くらいの多様なバーコードを持ったライブラリをiiluminaでシーケンスして、バーコード情報からscaffolding(NNN..があるかもしれない)を行ったり、long SVの検出に利用したりする。NGS以前のゲノムプロジェクトで、YACやBACにクローニングしてクローンごとに配列決定することでリピート問題を軽減していたのと意味合いは近い。

LRSIMはこのLinked readsのシミュレータとなる。 

 

Linked readsについて知っておくこと

  • A basic introduction to linked-reads

https://community.10xgenomics.com/t5/10x-Blog/A-basic-introduction-to-linked-reads/ba-p/95

  • Omics! Omics!  IGenomX Launches New Linked Read Chemistry

 

 

 

インストール

ubuntu14.04にインストールした。

perlのライブラリをインストールしておく。

cpanm  Inline::C
cpanm Math::Random.pm

 

本体 Github

https://github.com/aquaskyline/LRSIM

git clone --recursive https://github.com/aquaskyline/LRSIM.git 
cd LRSIM
sh make.sh
cd test
sh test.sh #ecoliゲノムによるテストラン

ヘルプ  

$ perl simulateLinkedReads.pl 

 

    Usage:   simulateLinkedReads.pl -r/-g <reference/haplotypes> -p <output prefix> [options]

 

    Reference genome and variants:

    -d INT      Haplotypes to simulate [2]

    -g STRING   Haploid FASTAs separated by comma. Overrides -r and -d.

    -1 INT      1 SNP per INT base pairs [1000]

    -2 INT      Minimum length of Indels  [1]

    -3 INT      Maximum length of Indels  [50]

    -4 INT      # of Indels  [1000]

    -5 INT      Minimum length of Duplications and Inversions [1000]

    -6 INT      Maximum length of Duplications and Inversions [10000]

    -7 INT      # of Duplications and # of Inversions [100]

    -8 INT      Minimum length of Translocations [1000]

    -9 INT      Maximum length of Translocations [10000]

    -0 INT      # of Translocations [100]

    -n          Disable all SVs

 

    Illumina reads characteristics:

    -e FLOAT    Per base error rate of the first read [0.0001,0.0016]

    -E FLOAT    Per base error rate of the second read [0.0001,0.0016]

    -i INT      Outer distance between the two ends for pairs [350]

    -s INT      Standard deviation of the distance for pairs [35]

 

    Linked reads parameters:

    -b STRING   Barcodes list

    -x INT      # million reads pairs in total to simulated [600]

    -f INT      Mean molecule length in kbp [100]

    -c STRING   Input a list of fragment sizes

    -t INT      n*1000 partitions to generate [1500]

    -m INT      Average # of molecules per partition [10]

 

    Miscellaneous:

    -u INT      Continue from a step [auto]

                  1. Variant simulation

                  2. Build fasta index

                  3. DWGSIM

                  4. Simulate reads

                  5. Sort reads extraction manifest

                  6. Extract reads

    -z INT      # of threads to run DWGSIM [8]

    -o          Disable parameter checking

    -h          Show this help

 

 

ラン

test.shは以下のコマンドを実行している。

perl ../simulateLinkedReads.pl -r ./ecoli.fa -p ./test1 -c fragmentSizesList -x 1 -f 50 -t 1 -m 10 -o -4 1 -7 1 

 

 raw readsをそのままアライメントした。

f:id:kazumaxneo:20180109000040j:plain

5'側にバーコードが付いているのがわかる。 

 

 縮小すると、区切りの境界線がぼんやりと見えてくる。

f:id:kazumaxneo:20180109120644j:plain

 

シミュレーションで発生させたリードは十分量のカバレッジがあるが、ヒトゲノムだとかなりカバレッジは薄くなる(linked reads情報は薄いカバレッジでも役に立つ)。

 

 

引用

LRSim: a Linked Reads Simulator generating insights for better genome partitioning

Luo R, Sedlazeck FJ, Darby CA, Kelly SM, Schatz MC.

Comput Struct Biotechnol J. 2017 Nov 9;15:478-484. doi: 10.1016/j.csbj.2017.10.002. eCollection 2017.

 

パックマンの挑戦「10X Genomics と PacBio」 どちらかを選ぶとしたら?

https://pacbiobrothers.blogspot.jp/2016/06/10x-genomics-pacbio.html