macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

マッピングソフト(アライナー)のパラメータ設定

 

日付は古いが、Biostarsにアライナー比較のディスカッションがあった。

When and why is bwa aln better then bwa mem?

 

質問はbwa alnの優位点は何かということみたいだが、回答者がエボラゲノムをシミュレートして10%の高いエラー率で配列を合成し、そのゲノムにbwa back-trackとmem、bowtie2でアライメントさせてマッピング率を算出すると

  • bowtie2: 30%
  • bwa aln: 25%
  • bwa mem: 85%

だったと書いている。bwa alnとbowti2のスコアが極端に悪いのはシード領域が固定で、その領域でマッチしなければアンマップ扱いになってしまうからだと考えられる。つまりエボラゲノムの不安定性を考慮したら、bwa memのようなエラーに強い手法でないとマッピングの時点で大量のリードをロスしてしまい、変異を評価できず使い物にならなくなってしまう。

ただしこれはデフォルトの設定の話で、bowtie2は--very-sensitive-localtと

-D 20 -R 3 -N 1 -L 20

上のオプション付きで実行すれば91%のマッピング率になったらしい。-Nは最初のマッチングに使うシード領域のミスマッチ許容値。-Lはシード領域の長さ。そのほかのオプションは

-D <int>           give up extending after <int> failed extends in a row (15)

-R <int>           for reads w/ repetitive seeds, try <int> sets of seeds (2)

 

ただしBWA MEMは1-Mbpのロングリードのアライメントに対応しており、また100bp以下のリードのアライメントにも優れるとされる。リードがハイクオリティなら大抵はbwa memで問題ないとは思われる。