macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

アンプリコンシーケンスの擬陰性を防ぐため、bamからプライマーをトリミングする BAMClipper

 Ampliconベースの次世代シーケンシング(NGS)は、高スループットな生殖系列(論文より ref.1,2)および体細胞変異検出のためのメジャープラットフォームの1つである(ref.3,4,5,6,7)(一部略)。
 NGSのリードは、通常、遺伝子特異的プライマー(試薬由来)および関心領域(関心対象のDNA試料由来のregion of interest: ROI)の両方を含み、プライマー部位によって規定される固定開始位置を有する(下の図1)。共通のリードマッピングツールは、リファレンスゲノム配列と同等に高い類似性を有するため、プライマー配列をROIと同じ方法でマッピングする。したがって、一般的なバイオインフォマティクスワークフローには、NGSリードからプライマー配列を除去し、潜在的な干渉(論文 アプローチ1、図1B)、例えばWTプライマー配列による variant allele frequency (VAF) が薄まるのを回避するためのマッピング前のプライマートリミングステップが含まれ得る。しかし、ROIのプライマー部位付近のSNVがvariant calling edge effectを起こし、変異型コールを逃す可能性がある。

 特定の状況では、プライマートリミングは必要ない(論文 アプローチ1B、図1B)。臨床的に重要ないくつかの遺伝子は、よく知られたホットスポット変異プロファイル(例えば、EGFRおよびKRASの機能獲得変異)を有し、プライマーは、潜在的なエッジ効果を回避するように設計される。短いエキソンまたはROIの場合、あるアンプリコンのROIが他のアンプリコンのプライマーと重複せず干渉されないので、amplicon tilingは必要ではない。しかし、多様な突然変異プロファイルを有する遺伝子(例えば、BRCA1およびBRCA2の機能喪失突然変異)またはあまり特徴のないプロファイルおよび完全なエクソンは、通常、 tiling ampliconsによってカバーされる。これらの2種類の遺伝子を有する遺伝子パネルでは、総合的な突然変異検出のために互いに補完するために1と2のアプローチが必要である。突然変異の検出精度は最大限に向上するが、計算と手作業による解釈の努力は倍増してしまう。

 この研究では、プライマー除去の代替アプローチとしてマッピング後のプライマークリッピングを考案した(論文 アプローチ3、図1B)。アプローチ3の既存のツールには、重複しないアンプリコンのプライマークリッピングを設計により行うPcrClipReads(https://github.com/lindenb/jvarkit/wiki/PcrClipReads)が含まれる。 GATK(ref.11)のClipReadsは、シーケンシングリード内の位置にかかわらず、正確な配列マッチングに基づいてプライマークリッピングを実行する。したがって、GATK ClipReadsは、配列のクロスマッチングのために重複するアンプリコンを不適切に処理し、不一致(例えばシーケンシングエラー)がある場​​合はプライマーを認識することができない。 MiSeq ReporterカスタムAmpliconワークフロー(https://www.illumina.com/systems/miseq/software/miseq-reporter.html)は、オーバーラッピングアンプリコンからプライマーを適切に切り取るが、ソフトウェアは独自仕様であり、特定のシーケンシングプラットフォームおよび市販のアンプリコンデザインのみをサポートする。著者らは、BAMClipperと呼ばれるツールを実装した。これは、重複するアンプリコンと遺伝子パネルデザインをネイティブにサポートしている。末梢血および乳癌腫瘍組織の乳癌および卵巣癌遺伝子パネルの評価中、BAMClipperアプローチは、エッジ効果または希釈効果による従来のアプローチでは見逃されるBRCA1およびBRCA2変異を検出した。実験およびシミュレーションにより、挿入または欠失(indels)は、SNVのようにエッジ効果の影響を受けやすいことが示された。突然変異の検出精度を向上させることに加えて、BAMClipperは従来のプライマートリミング手法と比較して計算効率が高く、プライマー除去効率も同等に維持された。

 

 

f:id:kazumaxneo:20180525115540j:plain

(A) Gene-specific primer sequences are present as part of NGS reads. 。論文の図1より転載。 

 

インストール

依存

  • SAMtools (at least version 1.3.1)
  • GNU Parallel (at least version 20130522)

本体 Github

https://github.com/tommyau/bamclipper

git clone https://github.com/tommyau/bamclipper
cd bamclipper/

> ./bamclipper.sh

$ ./bamclipper.sh 

Program: BAMClipper (Remove primer sequence from BAM alignments by soft-clipping)

Version: 1.1.1

 

File mode

Usage: ./bamclipper.sh -b BAM -p BEDPE [-n NTHREAD] [-s SAMTOOLS] [-g GNUPARALLEL] [-u UPSTREAM] [-d DOWNSTREAM]

Required arguments:

    -b FILE    indexed BAM alignment file

    -p FILE    BEDPE file of primer pair locations

 

Pipe mode

Usage: bwa mem ref.fasta r1.fastq r2.fastq | ./bamclipper.sh -i -p BEDPE [-n NTHREAD] [-s SAMTOOLS] [-g GNUPARALLEL] [-u UPSTREAM] [-d DOWNSTREAM] | ...

Required arguments:

    -i         read SAM alignment from STDIN

    -p FILE    BEDPE file of primer pair locations

 

Options for either mode:

    -n INT     number of threads for clipprimer.pl and samtools sort [1]

    -s FILE    path to samtools executable [samtools]

    -g FILE    path to gnu parallel executable [parallel]

    -u INT     number of nucleotide upstream to 5' most nucleotide of primer [1]

    -d INT     number of nucleotide downstream to 5' most nucleotide of primer [5]

 

ラン

テストデータを実行する。

./bamclipper.sh -b examples/SRR2075598.bam -p examples/trusight_myeloid.bedpe -n 4

bedpeはプライマーの位置を指定したbedpeファイルで、製造業者から提供されている。テストデータはイルミナ の急性骨髄性白血病など複数の原因遺伝子を増幅させるこのキット由来らしい(リンク)。

 

ランが終わると、トリミングされたSRR2075598.primerclipped.bamができる。

 

macでランしてエラーが出たら、本体であるシェルスクリプトのSCRIPT_DIRのパスをperlスクリプトを参照できるよう修正してください。変数が動作してなければ各perlスクリプトを指定できるようフルパスに変えてください。

 

引用

BAMClipper: removing primers from alignments to minimize false-negative mutations in amplicon next-generation sequencing.

Au CH, Ho DN, Kwong A, Chan TL, Ma ESK

Sci Rep. 2017 May 8;7(1):1567.