次世代シークエンシング(NGS)プラットフォームでよく知られているシングルエンドシーケンシング技術からmodifyされたペアエンドシーケンシング技術は、ゲノミクスにおいてますます重要な役割を果たしている。 DNA(またはcDNA)断片の2つの鎖の5 '末端を配列決定することにより、DNA contentsだけでなく位置情報も提供するので、反復領域おけるアセンブリまたは構造変異を解決する強力なリソースである。さらに、それは、シーケンシングされたDNAの両方の鎖に関する情報を伝達し、エキソンジャンクションを分析し、他の多くのアプリケーションに応用できる[論文より ref.3]。
典型的なイルミナのペアエンドシーケンシング技術は以下のように実施される:DNA断片の二本鎖はアダプターとバーコードの両方に連結され(multiplexingの場合)、二本鎖の5 '末端がフローセル表面に結合され、より良いヌクレオチド合成および蛍光イメージングのためのクラスターを生成する。各DNA断片の両方の鎖は、クラスターを再生することによってシーケンシングテンプレートとして機能することができ、その結果、対の末端のリードが生成される(論文 図1A)。イルミナのペアエンドシーケンスプロトコルによれば、ユーザーは200〜500塩基対(bp)の選択した長さのDNA断片を2億リード得ることができる。得られたペアエンドリードは、36 x 2,75 x 2、または100 x2 bpなどのマシン固有の配列長である。
少なくとも予め指定された配列長(例えば100bp)と同じ長さのDNA断片については、両方の鎖の5 '末端から開始されるシーケンスプロセスは、アダプター配列前に終了するので、結果として実際のDNA情報のみ得ることができる。しかし、DNA断片が100bpよりも短い場合、シーケンサーは実際のDNAをリードスルーしてアダプターまでシーケンスする(論文 図1B)。その結果、生成されたペアリードには、不要なアダプタシーケンス(アダプタの汚染)が追加され、リファレンスへのマッピングのステップで排除される可能性がある。
リードから「実際の」DNA部分を回復するためには、既存のアルゴリズムはリード3 '末端に対してアダプター配列間の正しいアライメントに依存する。このようなアルゴリズムは、もともとシングルエンドシーケンシングにおけるアダプター汚染を扱うために設計されたものである。ペアレントエンドリードは2セットのシングルエンドリードとみなされ、アダプターのトリミングは各セットごとに個別に実行される。実際には、FASTX [ref.4]、Cutadapt [ref.5]、ea-utils [ref.6]、TagCleaner [ref.7]、Trim_Galore [ref.8](ペアエンドシーケンシング用cutadapterのラッパー)、ペアエンドシーケンシングでは満足のいく結果が得られない。これは、今日のシーケンサーがリード3 '末端において有意に高い配列エラー率を有するためである(図1C)。言い換えれば、不十分なシーケンシング品質を有するリードセグメントに対してアダプター配列を適合させることによって推定トリミング位置を同定することは、誤りが起こりやすい。 AdapterRemoval [ref.9](紹介)、SeqPrep [ref.10]、Trimmomatic [ref.11]のような一部のトリマーは、ペアリードのトリムされていない部分の間の逆相補性を調べることによってアダプターを探すが、その精度は依然としてエラーの起こりやすい3 '末端でのアダプター配列スキャニングに依存する。 GATK ReadAdaptorTrimmer [ref.12]は、高精度を達成するために、ペアのforwardリードとreverseリードの重なりを探す。しかし、GATK [ref.13]のバリアントコール解析パイプラインのために特別に設計されているため、入力と出力はSAM / BAM形式[ref.14]でなければならず、他の下流分析には煩雑である。いくつかのトリマーの性能比較は、いくつかのベンチマーク研究によって調査されている[ref.15,16,17]。
ここでは、ペアワイズシーケンシングのために特別に設計されたPEAT(Paired-End Adapter Trimmer)という、効率的で正確なアダプタートリミングアルゴリズムとその実装を提案する。 PEATはアダプター配列の入力を必要としない。これは、大規模な異なるアダプターを使用してライブラリーを処理する場合に特に便利である。 PEATは、従来のアプローチによって採用されたフィルタリング中の感度の損失を回避するために、リードのハイクオリティ部分の逆相補を直接スキャンする。 PEATと多くのアダプタトリミングツールを比較した。 PEATは、シミュレートされたベンチマークで比較的上手く動き、大きなリアルデータセットに適用された場合は高いスケーラビリティを示した。著者らはPEATを2つの公開リアルデータセット(1億5千万のシークエンシングリードを含む101 x 2のシーケンシングライブラリ)に適用し、何百万のアダプターつきリードが検出され、リカバリされ、リファレンスにバックマッピングされた。さらに、ChIP-seq、MNase-seq、およびRNA-seqのような異なる10種の公に利用可能なデータセットに対するPEATの影響を調べた。 下流分析をペアTのの処理の有無で比較すると、明らかなパターン変化が明らかになり、これはデータを偏向させ生物学的な意味を変える可能性がある。著者らは、すべてのアプリケーションでペアエンドリードを分析する際にアダプタの汚染にもっと注意を払う必要があることを提案している。
インストール
mac os 10.12でテストした。
https://github.com/jhhung/PEAT
Githubリリースよりバイナリをダウンロードできる。
https://github.com/jhhung/PEAT/releases
chmod u+x PEAT
> PEAT
$./PEAT
*********************************************************************************
+----+
|PEAT|
+----+
A integrated software that can do either paired-end and single-end adapter trimming operation.
Usage:
1. paired-end adapter trimming
> PEAT paired --help
2. single-end adapter trimming
> PEAT single --help
*********************************************************************************
> PEAT paired --help
$ PEAT paired --help
Error: the option '--input1' is required but missing
*********************************************************************************
+----------+
|Paired End|
+----------+
A software do paired-end adapter trimming operation.
It takes paired-end FastQ format input files (dual files), and reports adapter
removed FastQ format output files (dual files).
>> PEAT paired
Do paired-end adapter trimming operation with instruction like:
bin/PEAT_linux paired -1 test_file/test_paired1.fq -2 test_file/test_paired2.fq
*********************************************************************************
:
-h [ --help ] display this help message and exit
-1 [ --input1 ] arg The paired_1 input FastQ file (.fq) or
Gzip compressed FASTQ file (.fq.gz).
-2 [ --input2 ] arg The paired_2 input FastQ file (.fq) or
Gzip compressed FASTQ file (.fq.gz).
-o [ --output ] arg (=stdout) Prefix for Output file name, stdout by
default. If you choose this option, you
couldn't use --output_1 and --output_2
--output_1 arg (=stdout) Prefix for Output file part1 name,
stdout by default
--output_2 arg (=stdout) Prefix for Output file part2 name,
stdout by default
-n [ --thread ] arg (=1) Number of thread to use; if the number
is larger than the core available, it
will be adjusted automatically
-l [ --len ] arg (=30) Minimum gene fragment length, i.e. the
fragment length for reverse complement
check, 30 bp by default
-r [ --reverse_mis_rate ] arg (=0.4) Mismatch rate applied in first stage
reverse complement scan, 0.4 by default
-g [ --gene_mis_rate ] arg (=0.6) Mismatch rate applied in second stage
gene portion check, 0.6 by default
-a [ --adapter_mis_rate ] arg (=0.4) Mismatch rate applied in second stage
adapter portion check, 0.4 by default
--qtrim Quality trimmer; trim the last base of
the reads until the mean quality value
of the reads is larger than threshold
-q [ --quality ] arg The quality type. Type any one of the
following quality type indicator:
ILLUMINA, PHRED, SANGER, SOLEXA
Only for the option: --qtrim
-t [ --threshold ] arg The threshold (quality value) of the
quality trimmer, 30.0 by default
Only for the option: --qtrim
--out_gzip Compress the FASTQ output to Gzip file.
This option is required the option: -o
or --output_1/--output_2
--verbose Output running process by stderr
--adapter_contexts Output adapter contexts within the top
ten numbers in report.txt; You can use
the option: adapter_min_bp to select
adapter what you want; if you use this
option, the program becomes slower.
--adapter_min_bp arg (=10) Determine the mininal length of output
adapter contexts within the top 50
numbers in report.txt, 10 bp by default;
Required the option: adapter_contexts
ラン
ペアエンドのアダプタートリミング。アダプターは自動で検出される。
PEAT paired -1 pair1.fq -2 pair2.fq -o out -n 4 --adapter_contexts
- -1 The paired_1 input FastQ file (.fq) or Gzip compressed FASTQ file (.fq.gz).
- -2 The paired_2 input FastQ file (.fq) or Gzip compressed FASTQ file (.fq.gz).
- -o Prefix for Output file name, stdout by default.
- -n Number of thread to use; if the number is larger than the core available, it will be adjusted automatically
- --adapter_contexts Output adapter contexts within the top ten numbers in report.txt; You can use the option: adapter_min_bp to select adapter what you want; if you use this option, the program becomes slower.
out_paired1.fqとout_paired2.fq、top10sレポートが出力される。
ライセンスはGPLv2になっています。
引用
PEAT: an intelligent and efficient paired-end sequencing adapter trimming algorithm.
Li YL, Weng JC, Hsiao CC, Chou MT, Tseng CW, Hung JH
BMC Bioinformatics. 2015;16 Suppl 1:S2.