低複雑度領域由来のリードを除去する RepeatSoaker

　次世代シークエンシング（NGS）技術は、主に、DNA / RNAサンプルからの数百万回のリードの超並列シーケンシングに基づいており、リード長は増加している[論文より　ref.1,2]。 NGSのコストは急速に低下し、その結果、転写を研究するためにマイクロアレイの使用からRNA-seqデータへの移行が比較的急速に進んでいる。このNGSへの依存度の高まりは、データの品質やデータの解釈に影響を及ぼす可能性のある分析ステップの検討を必要とする。

　さまざまなタイプのNGS実験やライブラリー作成プロトコルが下流の処理ステップを決定しているが、ライブラリを構築するために使用したアダプター配列を除去し、低クオリティな塩基を除去する[ref.5]。これに続いて、PCRによるライブラリー増幅の際に起こり得る、重複したリードを除去する[ref.6]。このステップの背後にある論理的根拠は、このような重複したリードは、DNA-seqデータ[ref.7]における変異検出、RNA-seqデータにおける遺伝子発現[ref.8]、およびChIP-seqデータ[10]において遺伝子の定量化など生物学的シグナルの真のレベルに関する誤った結論を起こすということである[ref.9]。この問題にどのように最善を尽くすかについて、2つの考え方が現場で浮上している。第1は、潜在的なバイアスだと仮定して、データセットからすべての重複またはlow complexity （以後、低複雑）なリードを除去する[ref.7,8,10,11,12]。二つ目は、これらの複製が真の固有の観測であり、それらの除去がそれ自身のバイアスを導入すると信じている[ref.7]。重複リードの影響はDNAシークエンシングで研究されているが、ChIP-seq実験におけるモチーフ検出およびRNA-seq実験における遺伝子発現による重複がどのように遺伝子シグナルに影響を与えるかという問題は未解決のままである。

　リファレンスゲノムにおける低複雑性[ref.14,15]および反復[ref.16]の存在は、それらが生物学的研究の結論にどのように影響を及ぼすかにあまり注意を払わなかった。そのような領域は、それらから発生するリードが複数の場所にマッピングされ、位置合わせが複雑になる。この問題は、真核生物ゲノムがリピート領域において非常に豊富であり得るため、小さくはない。例えば、ヒトゲノムには〜47％のリピートが含まれていると推定している研究者もいる[ref.19]。最近のENCODEプロジェクトの結果は、ゲノムが広く転写されていることを示唆しているが[ref.20、21]、低複雑性およびリピート領域に由来するRNA分子は、ゲノム全体にわたって無差別にアライメントされる可能性がある（一部略）。

　この研究では、RNA-seqおよびChIP-seq実験において、アダプタートリミング、重複リード除去、および低複雑性領域に重複するリードを排除する効果を系統的に調査した。各処理段階で、研究者は、RNA-seqデータから検出された遺伝子の経路および遺伝子のオントロジー濃縮分析およびChIP-seqデータから検出されたピークにおける転写因子結合部位濃縮分析を実施することによって、生物学的シグナルの強度の間接的測定を使用した。ここでの著者らの理論的根拠は、処理ステップがより有意な濃縮p値をもたらす場合、その処理ステップは生物学的シグナルに積極的に影響を及ぼす可能性があるということである。

　低複雑度領域をオーバーラップするリードの除去は、それほど注意を払われなかった。例えば、このステップは、PRINSEQツール[ref.25]の品質管理ステップのセットに含まれている。低複雑度合いの影響を個別にテストできるようにするために、簡単なポストアライメントフィルタリングツール、RepeatSoakerを使用して、複雑さの低い領域のゲノム座標を含むユーザー提供のテンプレートファイルと重複する読み取りを除外する。アライナーに依存しないように設計されたRepeatSoakerは、アライメントされたデータをBAM形式で処理し、複雑さの低いリードを取り除き、クリーンなBAMファイルとフィルタリング統計を出力する。RepeatSoakerは、NGSデータからアライメントアーチファクトを除去する簡単な方法で、転写物発現の定量化における誤った陽性の可能性を排除するように設計されている。低複雑な領域を含むリードがChIP-seqのようなバイアスを導入する可能性がある他のシーケンシング技術に拡張可能であり、著者らはRepeatSoakerが再現性のあるNGSパイプラインをよりよく構造化するのを助ける標準的なステップになると考えている。

　著者らは、アダプタートリミング、重複除去、およびRNA-seqおよびChIP-seq実験に対するRepeatSoakerを用いた複雑なリードのフィルタリングを適用し、各ステップが下流の濃縮分析の結果にどのように影響するかを調べた。結果は、アダプタートリミングが、RNA-seqデータにおける遺伝子オントロジーおよび経路濃縮分析の重要性を高め、ChIP-seqデータにおけるモチーフ検出を強化することを示していた。リード数を減らしたにもかかわらず、重複除去ステップは、特にアダプタートリミングと組み合わせた場合、生物学的シグナルの重要性を高めるのにさらに役立った。 RepeatSoakerを使用して複雑さの低いリードをフィルタリングすることは、リード総数にはあまり影響しないが、このステップは生物学的信号の検出に正の効果をもたらした。この研究では、アダプタートリミングと重複除去は、RNA-seqとChIP-seqデータ内でより強い生物学的シグナルを検出する上で重要なステップであることを示唆していた。

このRepeatSoaker自身に低複雑度の領域を探す機能はない。RepeatMaskerで低複雑度の領域を探し、RepeatSoakerにbedで与えると、入力したbamからその領域にアライメントされたリードが除外される。

インストール

依存

bedtools

Github

https://github.com/mdozmorov/RepeatSoaker

git clone https://github.com/mdozmorov/RepeatSoaker.git
make mappability 
make clean

> ./repeat-soaker

$ ./repeat-soaker

USAGE: repeat-soaker <options> -r repeat_regions.bed in.bam

Options:

-o <out.bam> : specify an output path for the bam

default: in.repeatSoaker.bam

-h : show this help

-p : percent overlap (a float between 0 and 1)

default: 0.75

ラン

ダウンロードしたフォルダには、人の low complexilityな領域の１例が含まれる。新規に探索するには、RepeatMasker（-noint/-intつき）で low complexilityの領域を検出し、BEDOPS rmsk2bedでRepeatMasker出力をbedに変換する。

除去したい領域のbedを指定する。入力のbamはcoordinate ソートされている必要がある。samtools sortコマンドを使う。

samtools sort -@ 8 input.bam > coordsorted.bam

#またはpicard-toolsを使う。
picard SortSam INPUT=input.bam OUTPUT=coordsorted.bam SORT_ORDER=coordinate

除去したいlow complexility領域のbedを指定してランする。

repeat-soaker -r rmsk.bed -o output.bam coordsorted.bam

引用

Detrimental effects of duplicate reads and low complexity regions on RNA- and ChIP-seq data.

Dozmorov MG, Adrianto I, Giles CB, Glass E, Glenn SB, Montgomery C, Sivils KL, Olson LE, Iwayama T, Freeman WM, Lessard CJ, Wren JD.

BMC Bioinformatics. 2015;16 Suppl 13:S10.

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

低複雑度領域由来のリードを除去する RepeatSoaker