macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ターゲットアンプリコンシーケンシングのプライマーを除く pTrimmer

 

 ゲノムの変異検出は、臨床がん研究においてますます一般的になっている[ref.1]。多重アンプリコンに基づくディープシーケンシングは、特定の疾患関連遺伝子の突然変異検出のための主要なアプローチの1つである[ref.1、2、3]。がん関連遺伝子の変異を同定するために、多くのアルゴリズムが開発されている[ref.2、4]。マルチプレックスアンプリコンに基づく次世代シークエンシング(NGS)からのリードは通常2つの部分、すなわち遺伝子特異的プライマー(すなわち標的領域を増幅するために使用される配列)および目的の領域を含む[ref.5]。隣接するアンプリコン配列は通常、目的の遺伝子全体を網羅するように互いに重複するように設計されている[ref.6]。しかしながら、無効なオリゴヌクレオチド合成はプライマーにエラーを導入することになり、これは、トリミングされていないNGSリードをリファレンスゲノムに直接マッピングすることで信頼できない突然変異情報をもたらすことを意味する。具体的には、プライマーの合成エラーは、対応するゲノム部位における変異対立遺伝子頻度(VAF)の値を増加させ、したがって突然変異コーラーソフトウェアにより「真の」ヌクレオチド変異確率を増加させる変異情報を含むと誤って見なされる。

 Cutadapt [ref.7]やAlienTrimmer [ref.8]などのいくつかのツールが現在利用可能であるか、またはプライマートリミングと互換性がある。これらのツールは、アダプタシーケンス削除で効率的に機能する。しかし、マルチプレックスアンプリコンシークエンシングには通常、数百または数千のプライマー配列がある[ref.2]。これらのツールはマルチプレックスプライマー配列のトリミングにおいて非効率的になる。 bamベースのプライマー除去ツールであるBAMClipper(紹介)は、ユーザーが関心のある領域の端付近での挿入と欠失の検出に焦点を当てている[ref.5]。ただし、Perlの実装とソフトクリッピングベースのプライマーマッチングアルゴリズムにより、大規模なデータセットの処理がやや低くなる。Trimmomatic [ref.9]のような他のいくつかのツールは、5 '末端および3'末端の両方からのプライマー配列の代わりに3 '末端からの特定の配列のみをトリミングする。 cutPrimers[ref.10](紹介)は、マルチプルプライマー配列を削除するために特別に開発されたが、正規表現マッチングとPython実装のアルゴリズムは、感度、特異性、パフォーマンスが低いという結果になる。

 本研究では、マルチプレックスアンプリコン配列データからプライマー配列をトリミングする新しいツールpTrimmerを開発した。感度と特異度を高めるために、本著者らはk-mersアルゴリズム[ref.11]とNeedleman-Wunschアルゴリズム[ref.12]の両方を採用した。そしてC実装により高いパフォーマンスを保証する。このツールは、WindowsシステムとLinuxシステムの両方で使用できる。他の3つのツールを使用したベンチマーク分析により、pTrimmerはプライマートリミングにおいて非常に時間効率がよく、正確であることがわかった。

 

 

f:id:kazumaxneo:20190515201546p:plain

Workflow of pTrimmer. 論文より転載 

 


インストール

ubuntu16.04でテストした。

The program could run on a standard dual core laptops with 8 GB of RAM on both windows(win7 or win10) and linux(centos or ubuntu).

ビルド依存

  • zlib-1.2.7
  • the gcc compiler should be available on your server or laptop.

本体 Github

git clone https://github.com/DMU-lilab/pTrimmer.git
cd pTrimmer/
make 

> ./pTrimmer-1.3.1 -h

# ./pTrimmer-1.3.1 -h

[Err::ParseOpt::82]  Please give the [requied] parmeters!

 

Usage: pTrimmer [options]

Version: 1.3.1

 

Options:

       -h|--help        print help infomation

       -l|--keep        keep the complete reads if can't locate primer

                        sequence [default: discard the reads]

       -s|--seqtype     [required] the sequencing type [single|pair]

       -a|--ampfile     [required] input amplicon file [.txt]

       -f|--read1       [required] read1(forward) for fastq file [.fq|.gz]

       -r|--read2       [optional] read2(reverse) for paired-end seqtype [.fq|.gz]

       -o|--outdir      [required] output directory for trimed fastq file [dir]

       -q|--minqual     [optional] the minimum average quality to keep after triming [20]

       -k|--kmer        [optional] the kmer lenght for indexing [8]

       -m|--mismatch    [optional] the maxmum mismatch for primer seq [3]

 

テストラン

fastqとprimer配列を記載したファイル(例: pTrimmer/Example/data_amplicon.txt)を指定する。

cd pTrimmer/Example/
mkdir output
pTrimmer-1.3.1 -f data_R1.fq.gz -r data_R2.fq.gz \
-a data_amplicon.txt -s pair -o out

> ls -al output/

# ls -al output/

total 332

drwxr-xr-x  5 root root    170 May 13 18:11 .

drwxr-xr-x 36 root root   1224 May 13 18:11 ..

-rw-r--r--  1 root root 218742 May 13 18:11 Summary.ampcount

-rw-r--r--  1 root root  58400 May 13 18:11 data_trim_R1.fq

-rw-r--r--  1 root root  54878 May 13 18:11 data_trim_R2.fq

 

引用

pTrimmer: An efficient tool to trim primers of multiplex deep sequencing data

Xiaolong Zhang†, Yanyan Shao†, Jichao Tian†, Yuwei Liao, Peiying Li, Yu Zhang, Jun Chen, Zhiguang Li
†Contributed equally
BMC Bioinformatics 2019 20:236