macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

並列化に対応した高感度なアダプタートリミングツール PEAT

 

 次世代シークエンシング(NGS)プラットフォームでよく知られているシングルエンドシーケンシング技術からmodifyされたペアエンドシーケンシング技術は、ゲノミクスにおいてますます重要な役割を果たしている。 DNA(またはcDNA)断片の2つの鎖の5 '末端を配列決定することにより、DNA contentsだけでなく位置情報も提供するので、反復領域おけるアセンブリまたは構造変異を解決する強力なリソースである。さらに、それは、シーケンシングされたDNAの両方の鎖に関する情報を伝達し、エキソンジャンクションを分析し、他の多くのアプリケーションに応用できる[論文より ref.3]。

 典型的なイルミナのペアエンドシーケンシング技術は以下のように実施される:DNA断片の二本鎖はアダプターとバーコードの両方に連結され(multiplexingの場合)、二本鎖の5 '末端がフローセル表面に結合され、より良いヌクレオチド合成および蛍光イメージングのためのクラスターを生成する。各DNA断片の両方の鎖は、クラスターを再生することによってシーケンシングテンプレートとして機能することができ、その結果、対の末端のリードが生成される(論文 図1A)。イルミナのペアエンドシーケンスプロトコルによれば、ユーザーは200〜500塩基対(bp)の選択した長さのDNA断片を2億リード得ることができる。得られたペアエンドリードは、36 x 2,75 x 2、または100 x2 bpなどのマシン固有の配列長である。

 少なくとも予め指定された配列長(例えば100bp)と同じ長さのDNA断片については、両方の鎖の5 '末端から開始されるシーケンスプロセスは、アダプター配列前に終了するので、結果として実際のDNA情報のみ得ることができる。しかし、DNA断片が100bpよりも短い場合、シーケンサーは実際のDNAをリードスルーしてアダプターまでシーケンスする(論文 図1B)。その結果、生成されたペアリードには、不要なアダプタシーケンス(アダプタの汚染)が追加され、リファレンスへのマッピングのステップで排除される可能性がある。

 リードから「実際の」DNA部分を回復するためには、既存のアルゴリズムはリード3 '末端に対してアダプター配列間の正しいアライメントに依存する。このようなアルゴリズムは、もともとシングルエンドシーケンシングにおけるアダプター汚染を扱うために設計されたものである。ペアレントエンドリードは2セットのシングルエンドリードとみなされ、アダプターのトリミングは各セットごとに個別に実行される。実際には、FASTX [ref.4]、Cutadapt [ref.5]、ea-utils [ref.6]、TagCleaner [ref.7]、Trim_Galore [ref.8](ペアエンドシーケンシング用cutadapterのラッパー)、ペアエンドシーケンシングでは満足のいく結果が得られない。これは、今日のシーケンサーがリード3 '末端において有意に高い配列エラー率を有するためである(図1C)。言い換えれば、不十分なシーケンシング品質を有するリードセグメントに対してアダプター配列を適合させることによって推定トリミング位置を同定することは、誤りが起こりやすい。 AdapterRemoval [ref.9](紹介)、SeqPrep [ref.10]、Trimmomatic [ref.11]のような一部のトリマーは、ペアリードのトリムされていない部分の間の逆相補性を調べることによってアダプターを探すが、その精度は依然としてエラーの起こりやすい3 '末端でのアダプター配列スキャニングに依存する。 GATK ReadAdaptorTrimmer [ref.12]は、高精度を達成するために、ペアのforwardリードとreverseリードの重なりを探す。しかし、GATK [ref.13]のバリアントコール解析パイプラインのために特別に設計されているため、入力と出力はSAM / BAM形式[ref.14]でなければならず、他の下流分析には煩雑である。いくつかのトリマーの性能比較は、いくつかのベンチマーク研究によって調査されている[ref.15,16,17]。

 ここでは、ペアワイズシーケンシングのために特別に設計されたPEAT(Paired-End Adapter Trimmer)という、効率的で正確なアダプタートリミングアルゴリズムとその実装を提案する。 PEATはアダプター配列の入力を必要としない。これは、大規模な異なるアダプターを使用してライブラリーを処理する場合に特に便利である。 PEATは、従来のアプローチによって採用されたフィルタリング中の感度の損失を回避するために、リードのハイクオリティ部分の逆相補を直接スキャンする。 PEATと多くのアダプタトリミングツールを比較した。 PEATは、シミュレートされたベンチマークで比較的上手く動き、大きなリアルデータセットに適用された場合は高いスケーラビリティを示した。著者らはPEATを2つの公開リアルデータセット(1億5千万のシークエンシングリードを含む101 x 2のシーケンシングライブラリ)に適用し、何百万のアダプターつきリードが検出され、リカバリされ、リファレンスにバックマッピングされた。さらに、ChIP-seq、MNase-seq、およびRNA-seqのような異なる10種の公に利用可能なデータセットに対するPEATの影響を調べた。 下流分析をペアTのの処理の有無で比較すると、明らかなパターン変化が明らかになり、これはデータを偏向させ生物学的な意味を変える可能性がある。著者らは、すべてのアプリケーションでペアエンドリードを分析する際にアダプタの汚染にもっと注意を払う必要があることを提案している。

 

インストール

mac os 10.12でテストした。

Github

https://github.com/jhhung/PEAT

Githubリリースよりバイナリをダウンロードできる。

https://github.com/jhhung/PEAT/releases

chmod u+x PEAT

> PEAT 

$./PEAT 

 

 

*********************************************************************************

+----+

|PEAT|

+----+

  A integrated software that can do either paired-end and single-end adapter trimming operation.  

 

Usage:

 

 1. paired-end adapter trimming

> PEAT paired --help

  

 2. single-end adapter trimming

> PEAT single --help

*********************************************************************************

 

> PEAT paired --help 

$ PEAT paired --help

Error: the option '--input1' is required but missing

 

*********************************************************************************

+----------+

|Paired End|

+----------+

 

A software do paired-end adapter trimming operation.

It takes paired-end FastQ format input files (dual files), and reports adapter 

removed FastQ format output files (dual files).

 

>> PEAT paired

    Do paired-end adapter trimming operation with instruction like:

    bin/PEAT_linux paired -1 test_file/test_paired1.fq -2 test_file/test_paired2.fq 

 

*********************************************************************************

:

  -h [ --help ]                        display this help message and exit

  -1 [ --input1 ] arg                  The paired_1 input FastQ file (.fq) or 

                                       Gzip compressed FASTQ file (.fq.gz).

  -2 [ --input2 ] arg                  The paired_2 input FastQ file (.fq) or 

                                       Gzip compressed FASTQ file (.fq.gz).

  -o [ --output ] arg (=stdout)        Prefix for Output file name, stdout by 

                                       default. If you choose this option, you 

                                       couldn't use --output_1 and --output_2

  --output_1 arg (=stdout)             Prefix for Output file part1 name, 

                                       stdout by default 

  --output_2 arg (=stdout)             Prefix for Output file part2 name, 

                                       stdout by default 

  -n [ --thread ] arg (=1)             Number of thread to use; if the number 

                                       is larger than the core available, it 

                                       will be adjusted automatically

  -l [ --len ] arg (=30)               Minimum gene fragment length, i.e. the 

                                       fragment length for reverse complement 

                                       check, 30 bp by default

  -r [ --reverse_mis_rate ] arg (=0.4) Mismatch rate applied in first stage 

                                       reverse complement scan, 0.4 by default

  -g [ --gene_mis_rate ] arg (=0.6)    Mismatch rate applied in second stage 

                                       gene portion check, 0.6 by default

  -a [ --adapter_mis_rate ] arg (=0.4) Mismatch rate applied in second stage 

                                       adapter portion check, 0.4 by default

  --qtrim                              Quality trimmer; trim the last base of 

                                       the reads until the mean quality value 

                                       of the reads is larger than threshold

  -q [ --quality ] arg                 The quality type. Type any one of the 

                                       following quality type indicator: 

                                       ILLUMINA, PHRED, SANGER, SOLEXA

                                       Only for the option: --qtrim

  -t [ --threshold ] arg               The threshold (quality value) of the 

                                       quality trimmer, 30.0 by default

                                       Only for the option: --qtrim

  --out_gzip                           Compress the FASTQ output to Gzip file. 

                                       This option is required the option: -o 

                                       or --output_1/--output_2

  --verbose                            Output running process by stderr

  --adapter_contexts                   Output adapter contexts within the top 

                                       ten numbers in report.txt; You can use 

                                       the option: adapter_min_bp to select 

                                       adapter what you want; if you use this 

                                       option, the program becomes slower.

  --adapter_min_bp arg (=10)           Determine the mininal length of output 

                                       adapter contexts within the top 50 

                                       numbers in report.txt, 10 bp by default;

                                       Required the option: adapter_contexts

 

 

ラン

ペアエンドのアダプタートリミング。アダプターは自動で検出される。

PEAT paired -1 pair1.fq -2 pair2.fq -o out -n 4 --adapter_contexts
  • -1    The paired_1 input FastQ file (.fq) or Gzip compressed FASTQ file (.fq.gz).
  • -2    The paired_2 input FastQ file (.fq) or Gzip compressed FASTQ file (.fq.gz).
  • -o    Prefix for Output file name, stdout by  default. 
  • -n     Number of thread to use; if the number is larger than the core available, it will be adjusted automatically
  • --adapter_contexts    Output adapter contexts within the top ten numbers in report.txt; You can use the option: adapter_min_bp to select adapter what you want; if you use this option, the program becomes slower.

out_paired1.fqとout_paired2.fq、top10sレポートが出力される。

 

ライセンスはGPLv2になっています。

引用

PEAT: an intelligent and efficient paired-end sequencing adapter trimming algorithm.

Li YL, Weng JC, Hsiao CC, Chou MT, Tseng CW, Hung JH 

BMC Bioinformatics. 2015;16 Suppl 1:S2.