macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ベイズ的アプローチによるアダプタートリミングツール Scythe

 

 Scytheはfastqのアダプター配列トリミングツール。ライブラリ調整過程でリード長より短い回断片が精製されてくると、3'末端側にアダプター配列のついた配列がシーケンスされる。これは例えばsmall RNAのシーケンスを想定するとわかりやすい。small-RNAのライブラリを作成し、100bpシーケンスすれば、3'側には様々な位置にアダプターが来るのが想像できる。全ゲノムシーケンスでも、こういった短いリードのシーケンスは低確率で起こっている。このようなリードがアダプタートリミング後も残ると、アセンブリやアライメントなどに悪影響を及ぼす可能性がある。よって、3'側のトリミングも実行しておくことが望ましい。

 

 Scytheはアダンプターが残存している/していないの2つの尤度モデルを比較し、入力されたアダプター配列との相同性からアダプターがコンタミしているリードを推定し、3’末端側のアダプター配列を除く。Gitubのページには現在論文執筆中と記載されている。

  

 Scytheより先にクオリティトリミングを行うと、3'側のアダプターが部分的に削除されたりしてScytheの解析がうまく行えなくなる。そのため、初めにScytheで3'側のアダプター配列を除去することが推奨されている。Scytheで除けなかった5'側のアプアプター(アダプターだけの単純配列のアーティファクトなど)はTagdustなどで完全に除去し(アダプターが見つかればリード全長を除く)、それからでクオリティトリミングを行う。最終的には、fastqcやqrqcなどでクオリティスコアの分布を確認し、レポート結果からクオリティトリミングが適切か判断すべきとScytheの開発者は推奨している(最後の分析でトリミングが甘ければ、長さを指定するなどして、さらなるトリミングを実行する)。

 

Scythe(アダプタートリミング1)

Tagdust(アダプタートリミング2)

quality trimming

fastqc(判定)

 

 

Github

https://github.com/vsbuffalo/scythe

 

インストール

本体を解凍してmakeする。

make all

scytheをパスが通ったディレクトリにコピーするかリンクを張るなどしてパスを通す。

 

ラン

scythe-master/に同封されているilluminaのアダプター配列ファイルを指定してラン。最後尾に入力のfastqファイル(input.fastq)を指定している。

scythe -a illumina_adapters.fa -o trimmed_sequences.fastq input.fastq 
  • -o output trimmed sequences file (default: stdout)
  • -m   matches file (default: no output)
  • -q quality type, either illumina, solexa, or sanger (default: sanger)
  • -M filter sequnces less than or equal to this length (default: 35)
  • -t add a tag to the header indicating Scythe cut a sequence (default: off)-t, --tag add a tag to the header indicating Scythe cut a sequence (default: off) 
  • -n smallest contaminant to consider (default: 5)

Information on quality schemes:

・phred PHRED quality scores (e.g. from Roche 454). ASCII with no offset, range: [4, 60].

・sanger Sanger are PHRED ASCII qualities with an offset of 33, range: [0, 93]. From sanger Sanger are PHRED ASCII qualities with an offset of 33, range: [0, 93]. From  NCBI SRA, or Illumina pipeline 1.8+.

・solexa Solexa (also very early Illumina - pipeline < 1.3). ASCII offset ofsolexa Solexa (also very early Illumina - pipeline < 1.3). ASCII offset of 64, range: [-5, 62]. Uses a different quality-to-probabilities conversion than other schemes.

・illumina Illumina output from pipeline versions between 1.3 and 1.7. ASCII offset of 64, illumina Illumina output from pipeline versions between 1.3 and 1.7. ASCII offset of 64, range: [0, 62]

 

trimmed_sequences.fastqが出力される。Miseqのシーケンスデータを1,000,000サンプリングして解析したところ、17789リードにアダプターが見つかり、トリミングの結果トータルサイズ290,466,519-bpが290,124,196-bpになった。

 

 

引用

What is the strategy to deal with adapter contamination inside the reads but not at either of the ends (3' or 5')?

https://www.researchgate.net/post/What_is_the_strategy_to_deal_with_adapter_contamination_inside_the_reads_but_not_at_either_of_the_ends_3_or_5