macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ナノポアのアダプタートリミングツール Porechop

 

 PorechopはOXford Nanoporeのリードのアダプタートリミングツール。データベースを保持しており、自動でアダプター配列を認識し除去してくれる。マルチプレックスのidnex配列を除く機能も持つ。

 

ダウンロードリンク

GitHub - rrwick/Porechop: Adapter trimmer for Oxford Nanopore reads

 

インストー

git clone https://github.com/rrwick/Porechop.git 
cd Porechop
python3 setup.py install # usr/locan/binにパスも通る
porechop -h #ヘルプの表示

初めに10000リードランダムに(?)抽出して、Porechopのアダプターライブラリと称号を行いアダプターを検出する。その時の閾値は90%以上の相同性となっているが、--adapter_thresholdを指定すれば変更可能。

 

ラン

Porechopのデータベースと比較して、アダプター配列をstartとendから除く。

porechop -i input_reads.fastq.gz -o output_reads.fastq.gz 

非圧縮のfastq/fastaも使用できる。重要そうなパラメータを載せておく。

  • --adapter_threshold: An adapter set has to have at least this percent identity to be labelled as present and trimmed off (0 to 100) (default: 90.0)
  • --end_size: The number of base pairs at each end of the read which will be searched for adapter sequences (default: 150)
  • --min_trim_size: Adapter alignments smaller than this will be ignored (default: 4)
  • --end_threshold: Adapters at the ends of reads must have at least this percent identity to be removed (0 to 100) (default: 75.0)
  • --extra_end_trim: his many additional bases will be removed next to adapters found at the ends of reads (default: 2)

 

特に--end_thresholdは大きく影響を与えそうである。著者は1DのONTリードでのみ検証しており、2Dのデータの使用については保証していない。精度の高い2Dのデータならばもう少し相同性に関わる値を厳しくした方が良い可能性がある。

結果

Trimming adapters from read ends

     SQK-NSK007_Y_Top: AATGTACTTCGTTCAGTTACGTATTGCT

  SQK-NSK007_Y_Bottom: GCAATACGTAACTGAACGAAGT

        Rapid_adapter: GTTTTCGCATTTATCGTGAAACGCTTTCGCGTTTTTCGTGCGCCGCTTCA

 

14198 / 22907 reads had adapters trimmed from their start (842478 bp removed)

  778 / 22907 reads had adapters trimmed from their end (8997 bp removed)

 

 

Splitting reads containing middle adapters

0 / 22907 reads were split based on middle adapters

 

 

Saved result to /Users/user/nanopore2/merged_trimmed.fastq

 

lambdaのコントロールのシーケンスデータを読むと、このような結果となった。

--verbosity 2をつけると、進捗が細かく表示される。