ソフトクリップされたリードから複雑な欠失を検出する Sprites

　もともと、構造変異（SV）は大きさが1k bpを超える挿入、欠失および逆位として定義されていた（Feuk et al、2006）、現在はずっと小さな変異（例えば50 bp以上の長さ） et al、2011）、転座やタンデムの複製など、より多くのタイプのバリアントが含まれる（SVの定義が変わってきている）。これらの変異は、ヒト集団において一般的であり、ヒト疾患、複雑な形質および進化と関連している（Baker、2012）。したがって、SVを見つけることは重要な作業となる。ハイスループットシーケンシングの最近の進歩により、これまで以上に多くのバリアントが明らかになってきている。ハイスループット配列決定データから変異を検出するための多くの努力がなされている。例えば、1000ゲノムプロジェクトコンソーシアムは、14のpopulationsから1092人のSVデータを発表した（Consortium et al、2012）。いくつかの方法（SVSeq（Zhang and Wu、2011）、MindTheGap（Rizk et al。、2014））は特定のタイプのSVを検出するために特別に設計されている。欠失は、リファレンスゲノムと比較して、個々のゲノムに欠けているDNAセグメント（ドナー/サンプルゲノムとしても知られている）を示す。疾患データベースのデータベースの染色体不均衡の80％、Ensembl Resources（DECIPHER）を用いたヒトの表現型は、欠失によって引き起こされる（Weischenfeldt et al、2013）。欠失はSVの重要なタイプであり、ほとんどすべてのSV検出ツールが欠失を見つけるためのモジュールを開発している。この論文では、欠失の発見に焦点を当てている。

　ペアエンドリードは、現在のシーケンシングデータの最も一般的な形式である。 DNAライブラリーは、一般に、ゲノムを断片に切断し、断片をクローニングし、サイズを選択することによって構築される。ライブラリは、おおよそ同じサイズのフラグメントの集合である。2つの末端のアダプターを除いた断片の長さは、一般にインサートサイズと呼ばれる。インサートのサイズは、フラグメントごとに異なる。各断片のインサートサイズの正確な値は決定できないが、その近似値はサンプリングによって推定することができる。通常のインサートサイズの範囲は、ライブラリーの平均値と標準偏差によって指定される（Luo et al、2015a、b）。１つのフラグメントの両末端をシーケンシングすることによって、ペアの2つのリードが生成される。 BWA（Li and Durbin、2009）やBowtie2（Langmead and Salzberg、2012）などのリードマッパーを使用して、これらのペアエンドリードをリファレンスゲノムにマッピングする必要がある。ペアエンドの2つのリードがうまくマッピングされた場合、そのインサートサイズは、リファレンスゲノム上の2つの対応する位置の間の距離として与えられる。

　バリアントを明らかにするためにdiscordantなペアエンドリードを分析することは、最も一般的なアプローチの1つである。 BreakDancer（Chen et al、2009）、PEMer（Korbel et al、2009）、VariationHunter（Hormozdiari et al、2009、2010）およびGASV（Sindi et al、2009）などの多くのツールは、カバレッジの高いデータでの検出解像度を向上させることができるが、ブレークポイントの正確な位置はコールしない。 Read depthの手法は、おおよそのブレークポイントを与える別の方法である。depthとは、ゲノムの特定の部分にマッピングされたリードの数を示し、領域のコピー数を示すことができるが、コピーがどこにあるかを示すことはできない（Baker、2012）。このアプローチを適用するアルゴリズムの例として、SegSeq（Chiang et al、2009）、EWT（Yoon et al、2009）、CNVnator（Abyzov et al、2011）が挙げられる。

　アセンブリおよびsplit readsメソッドは、塩基レベルの分解能でバリアントを検出できる2つのアプローチである。アセンブリメソッドは、リファレンスゲノムからの収差を利用して、バリアントが存在する可能性のある位置を特定し、その領域のリードだけをアセンブルする（Baker、2012）。コンティグを参照ゲノム上の領域と比較することにより、正確なブレークポイントを有する変異体を検出できる。しかし、アセンブルには限界があります。ローカルアセンブリのみが実行されるが、アセンブリに必要なk-merスペクトルを構築するために、ライブラリのすべてのリードが処理される。このステップでは、実行には大量の時間とメモリが必要となる。それはまた、相同染色体の対のうちの1つのみで起こるヘテロ接合の変異（Baker、2012）を上手く扱えない傾向がある。

　Split readsは、シングルエンドであろうとペアエンドであろうと、バリアントのブレークポイントをカバーするものを指す。スプリット・リード・メソッドは、その名前が示すように、これらのスプリット・リードからバリアントを検出する（一部略）。場合によっては、シーケンシングエラーまたはマッピングエラーのためにスプリットリードではない場合がある。スプリットリードを使用してバリアントを検出するには、split readsマッピングとソフトクリッピングマッピングによる2つの方法がある。Split readsマッピングは、ペアのマップされなかった側に重点を置いている。マップされていないリードは、最初に2つの部分に分割される。次に、これらの2つの部分がそれぞれリファレンス配列にマッピングされ、対応するバリアントのブレークポイントが特定される。スプリット・リード・マッピングに基づく方法の例には、Pindel（Ye et al、2009）、AGE（Abyzov and Gerstein、2011）、SVSeq（Zhang and Wu、2011）、PRISM（Jiang et al、2012）、DELLY et al、2012）がある。Soft-clipped mappingは、5 ' または3 'がソフトクリップされたリードに焦点を当てる（"ソフト"なので情報は残っている）。これらのリードは、ソフトクリッピングリードとも呼ばれる。バリアントの1つのブレークポイントは、ソフトクリッピングが発生するマッピング場所によって指定される。他のブレークポイントは、リードのソフトクリッピングされたセグメントをリファレンスシーケンスに揃えることによって決定される。ソフトクリップに基づく方法の代表的なものとして、ClipCrop（Suzuki et al、2011）、CREST（Wang et al、2011）、SVSeq2（Zhang et al、2012）、Socrates（Schröderet al、2014）がある。 Split readsの方法には、時間およびメモリの非効率性、および高い偽陽性率および偽陰性率の問題がある。それらのうちのいくつかは、カバレッジの低いデータではうまく機能しない。

　ヒトゲノムでは３種類の欠失が観察される。（1）blunt deletions：ブレークポイントには欠失以外の特別な変化が見られない、（2）deletions with microhomologies:：欠失ブレークポイントで2つの小さい同一の配列が観察される、および（3）deletions with microinsertions：小さなuntemplated配列が挿入される。 Conrad et al （2010）は、315の欠失のブレークポイントを研究し、ブレークポイントの70％が1〜30 bpのmicrohomologiesを有し、ブレークポイントの33％が1〜369 bpの挿入を含み、ブレークポイントの10％がこの２つを同時に有することを見出した。いくつかのブレークポイント（〜7％）のみが(1)のblunt deletionとなる。microhomologiesとmicroinsertionsの存在は、クリップされた部分の再アライメントの問題を引き起こす。ソフトクリッピングリードのmicrohomologiesは、クリッピングされた部分の位置合わせが短すぎる原因となる。アライメントアルゴリズムは、クリップされた部分に対して複数のヒットを返す。これらのヒットのうち正しいものを見つけることは難しい。クリップされた部分のmicroinsertionsは、挿入された配列が参照と一致しないため、位置合わせが失敗する。しかし、スプリットリードマッピングはmicrohomologiesとmicroinsertionsを扱うことができる。 Pindelはパターン拡大アプローチを使用して、microinsertionsによる削除を報告する。 AGEは、2つの所与の配列の5 'および3'末端を同時にアライメントさせ、それらの存在に対処するためのジャンプギャップを作成する。 DellyはAGEアプローチに従い、AGEに変更を加える。これらのツールが利用可能であるにもかかわらず、microhomologiesとmicroinsertionsを用いた欠失の検出には、高精度の方法が必要である。

　この論文では、シーケンシングデータから欠失を検出するためのSprites（Structuredバリアントを削除するための再読み込み）を提案する。Spritesはmicrohomologiesとmicroinsertionsが引き起こす問題を解決することができる。ターゲットシーケンス内の一致するリードの最長接頭部または接尾部を見つけるために、クリップされた部分ではなくリード全体をターゲットシーケンス、すなわちリファレンスのセグメントに再アライメントする。microhomologiesの場合、適合されるべき配列の長さは、クリップされた部分の長さにmicrohomologiesの長さを加えたものまで拡張される。リードの最長の接頭辞または接尾辞は、通常、microhomologiesをカバーできる。したがって、欠失を決定することは容易である。microinsertionsの場合、リードの最長マッチプレフィックスまたはサフィックスは、microinsertionsが検出に及ぼす影響を回避することができる。ソフトクリッピングされたセグメントの再アライメントと全リードの比較が図1に示されている。

　再アライメントは、検出において最も時間のかかる作業の1つである。ソフトクリッピングリードの場合、SpritesはSVをスパンしたペアを使用してターゲットシーケンスのサイズと位置を決定する。これらの標的配列の大部分が数百塩基対の長さしか持たないことを考えると、ソフトクリッピングリードをそれらに再アライメントすることは大きく時間を節約する。Spritesは最初から最後まで一度だけ横断し、欠失検出に役立つソフトクリッピングリードに関する情報を格納する。これにより、Spritesのメモリフットプリントが削減される。 Spritesは、カバレッジの低いデータに対する優れたパフォーマンスに加えて、カバレッジの高いデータの分析にも使用できる。シミュレートされたデータと実際のシーケンシングデータを幅広くテストし、SVSeq2、LUMPY、Delly、Pindelなどの4つの検出ツールと比較した。結果は、これらのツールの中でも、Spritesは比較的低い誤検出率で非常に高感度であり、したがって多くの場合、最大のF measureを有することを示している。

（1）著者らの方法は、再アライメントを実行することによって標的配列に一致するソフトクリッピングリードの最長の接頭辞または接尾辞を見つけることができる。（2）配列決定データから発見されることが非常に困難であるmicroinsertionsおよび欠失を伴う欠失の問題を解決する。（3) 時間とメモリの使用が劇的に減少するようにアラインメントの長さを制限する。（4）オープンソースソフトウェアが実装されており、自由に利用できる。

追記

誤りがあったので修正しました。

インストール

Github

https://github.com/zhangzhen/sprites

ビルド済みのバイナリがあるので、Github内のリンクからダウンロードする。

chmod u+x sprites_OSX
./sprites_OSX

$ ./sprites_OSX

sprites: missing arguments

sprites: the reference file must be specified

Usage: sprites [OPTION] ... BAMFILE

Find deletions from records in BAMFILE

--help display this help and exit

-v, --verbose display verbose output

-r, --reffile=FILE read the reference sequence from FILE

-o, --outfile=FILE write the deletion calls to FILE (default: BAMFILE.calls)

-e, --error-rate=F the maximum error rate allowed between two sequences to consider them overlapped (default: 0.04)

-m, --min-overlap=LEN minimum overlap required between two reads (default: 12)

-q, --mapping-qual=MAPQ minimum mapping quality of a read (default: 1)

-n, --allowed-num=SIZE a soft-clip is defined as valid, when the clipped part is not less than SIZE (default: 5)

The following two option must appear together (if ommitted, attempt ot learn the mean and the standard deviation of insert size):

-i, --insert-mean=N the mean of insert size

--enhanced-mode enable the enhanced mode, in which reads of type 2 are considered besides type 1

-s, --insert-sd=N the standard deviation of insert size

Report bugs to zhangz@csu.edu.cn

パスの通ったディレクトリに移動しておく。

ラン

Spritesは、BWAによって生成されたアラインメントを使用する。

１、リードをリファレンスにマッピングする。

bwa index ref.fa
bwa mem -M -t 20 ref.fa pair1.fq pair2.fq |samtools view -@ 20 -bS - > aln.bam

#ソート& index
samtools sort -@ 20 aln.bam > sort.bam && samtools index sort.bam

２、欠失の検出。

sprites_OSX -v -o output.txt -r ref.fa sort.bam

-v display verbose output
-o write the deletion calls to FILE
-r read the reference sequence from FILE

出力は、VCF形式には準じていない。

引用

Sprites: detection of deletions from sequencing data by re-aligning split reads.

Zhang Z, Wang J, Luo J, Ding X, Zhong J, Wang J, Wu FX, Pan Y

Bioinformatics. 2016 Jun 15;32(12):1788-96.

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ソフトクリップされたリードから複雑な欠失を検出する Sprites