1分子シークエンシング(SMS)装置からのロングリードや、SMSアセンブリからのメガベーススケールのコンティグをアラインメントしてバリエーションを検出することは、計算量的に困難である。長い配列を効率的にアラインメントするための1つのアプローチは、スパース動的プログラミング(SDP)であり、配列とゲノムの間に完全に一致するものを見つけ、大まかなアラインメントを表す最適な一致の連鎖を見つける。配列のばらつきは、ギャップ長の凸関数であるギャップペナルティを用いてアラインメントをスコア化すると、より正確にモデル化される。これまでのSDPの実装では、ばらつきを正確にモデル化できない線形コストのギャップ関数を使用していたため、凸のギャップペナルティを持つアライメントの実装は効率が悪いか、ヒューリスティックを使用していた。lraを使用して、PacBioやOxford Nanopore (ONT)の装置やde novoアセンブリコンティグからの長い配列のアラインメントを行った。すべてのデータタイプにおいて、lraの実行時間は、SAMアライメントを生成する際の最新のアライナ-minimap2の52-168%、代替手法であるngmlrの9-15%であった。このアラインメントアプローチは、PacBioデータセットにおけるSVコールの追加証拠を提供するために使用される可能性があり、現在のSV検出アルゴリズムではONTデータに対する感度と特異性が向上する。lraアライメントを用いたpbsvを用いて発見されたコールの数は、同じデータ上のminimap2アライメントを用いたコールの98.3-98.6%以内であり、Truvari解析によるF1スコアの名目上の0.2-0.4%の増加を与える。Snifflesを使用して呼び出されたSVを持つONTデータでは、lraアライメントからのコール数はminimap2ベースのコール数よりも3%大きく、ngmlrベースのコール数よりも30%大きく、TruvariのF1スコアは4.6~5.5%増加する。de novoアセンブリコンティグからのバリエーションコールに適用すると、minimap2+paftoolsと比較してSVコールが5.8%増加し、Truvari F1スコアが4.3%増加した。
インストール
python3.7環境でcondaを使って導入した(ubuntu18.04)。
依存
#bioconda (link)
conda install -c bioconda lra -y
実行方法
1, indexing (global and local)
シーケンシングマシンによってインデックスのパラメータ設定は異なる
#ONT
lra index -ONT ref.fa
#pacbio CCS
lra index -CCS ref.fa
#pacbio CLR
lra index -CLR ref.fa
2, mapping
#ONT
lra align -ONT ref.fa read.fa -t 16 -p s > output.sam
#pacbio CCS
lra align -CCS ref.fa read.fa -t 16 -p s > output.sam
#pacbio CLR
lra align -CLR ref.fa read.fa -t 16 -p s > output.sam
PAF、SAM、BED形式で出力可能
#SAM
lra align -ONT ref.fa read.fa -t 16 -p s > output.sam
#PAF
lra align -ONT ref.fa read.fa -t 16 -p p > output.paf
#BED
lra align -ONT ref.fa read.fa -t 16 -p b > output.bed
引用
lra: the Long Read Aligner for Sequences and Contigs
Jingwen Ren, Mark Chaisson
bioRxiv, Posted November 17, 2020
関連