シングルセルシーケンスのカバレッジバイアスを見積もる Preseq

　単一細胞レベルで変異を調べるには、単一細胞のシーケンス決定技術が必要になる。このシングルセルシーケンスの技術は、腫瘍細胞のシーケンスや未培養の細菌集団の細胞の多様性を調べるような研究にも用いられてきた。また、着床前遺伝子診断などに利用して、重篤な変異のない細胞を選抜することに利用できる可能性がある。ただし、単一細胞に存在するのDNAの分子量は非常に小さく、ヒトでは１細胞に100ピコグラム以下のDNAしかない。シーケンスにはナノオーダーのDNAが必要なため、シングルセルのシーケンスには一般に全ゲノムのランダム増幅が必要になる。その方法として非PCRのMultiple displacement amplification (MDA)で使用されるDNAポリメラーゼφ29の利用がよく知られているが、φ29のプライミング効率および伸長速度がヌクレオチド含量に依存し、不均一な増幅をもたらすという知見も報告されている（Preseq論文）。増幅時の強い増幅バイアスにより、シーケンスのカバレッジには強いバイアスがかかり、カバレッジの大きな変動によるリードがまったくない領域、対立遺伝子の片方しかシーケンスされなかったことによる、多型の消失などが起こる。

　Preseqはduplicate readsでないリード（= distinct reads)の割合を計算することで、シングルセルシーケンスデータが比較的良好なのか、duplicate readsがかなりの割合を占めるのか見積もるツール。Preseqにかけて、増幅バイアスがひどいのかどうか分析することで、今後さらにシーケンスしても意味がないのか、全領域で一定のシーケンスをできそうなのか最低限のコストで推定したり、良好なライブラリ作製法を比較検討するための基礎データにすることができる。

公式サイト

Preseq | The Smith Lab

マニュアル

http://smithlabresearch.org/wp-content/uploads/manual.pdf

インストール

cent OSに導入した。

Github

https://github.com/smithlabcode/preseq

リリース（リンク）からpreseq_v2.0.2.tar.bz2をダウンロードして解凍して中に入りビルドする。

 make all

> ./preseq

$ ./preseq

preseq: a program for analyzing library complexity

Version: 2.0.0

Usage: preseq <command> [OPTIONS]

<command>: c_curve generate complexity curve for a library

lc_extrap predict the yield for future experiments

gc_extrap predict genome coverage low input

sequencing experiments

bound_pop lower bound on population size

ラン

bedは使用前にソートしておく必要がある（chromosome, start position, end position, and strand）。sortを以下のオプション付きでかける。

sort -k 1,1 -k 2,2n -k 3,3n -k 6,6 input.bed > input.sort.bed

予想される歩留まりを計算する。

preseq c_curve -o output.txt input.sort.bed

90%信頼区間に設定して、ペアードエンドのbamファイルを指定してランする。ステップサイズは5万（リード）とする。

preseq lc_extrap -o yield.txt -B input.sort.bam -P -s 50000 -c 0.90

出力は、total readとdistinct read、その90%信頼区間の上限値、下限値となる。

f:id:kazumaxneo:20180215193316j:plain

外挿してdintinct readsを予測している。例えば100万リードシーケンスすればexpected distinct reads (duplicationでないリード) の数は994642と期待できる。duplicationが多い質の低いシングルセルシーケンスだと、total readsの数を増やしてもdistinct readsの数は飽和して伸びないという結果が出るはずである。詳細は公式マニュアル（後半のグラフ）を確認してください。SRAの公共データを数パーセントダウンサンプリングして良好なデータかどうか推測しています。

引用

Modeling genome coverage in single-cell sequencing

Timothy Daley and Andrew D. Smith.

Bioinformatics. 2014 Nov 15; 30(22): 3159–3165.