次世代シークエンシング(NGS)技術の性能とコストにより、臨床検査機関への採用を推進し続けており、これによって従来の多くの分子遺伝学的解析システムの書き換えが急速に進んでいる。これは腫瘍診断領域において特に当てはまり、low mutant allelic frequencies (MAFs)を含む、臨床的に関連する突然変異の検出でゲノム領域の大幅な拡大を可能にした。
しかしながら、NGSは、癌研究および臨床試験において、単一ヌクレオチド変異の検出および小さな挿入および欠失(indels)のための優れた感度および特異性プロフィールを有することが判明しているが、多くの研究室はより大きなindels(> 20 bp)の検出には、いまだ伝統的な臨床検査技術を好んで使っている。結果として、このような突然変異に対して十分な臨床的および分析的感受性を保証するために、従来の平行した方法がしばしば用いられる。
indelがwetのラボラトリーのライブラリ作成手法に干渉していないならば、NGSの indel の感受性の低さの原因は、たいていのNGSベースのアライメントソフトウェアに依存したバイオインフォマティクスパイプラインに原因がある。アライナーの品質にかかわらず、このようなアルゴリズムは全て、リファレンスゲノムとの配列相同性に依存しているハンディキャップがある(一部略)。
癌検体の標的配列決定のため、ゲノムDNA調製に使用される多数のライブラリー調製法のうち、多くのアプローチは、関心領域をカバーする特定のアンプリコン生成物の生成法に依存する。このアンプリコンベースのNGSアプローチは、臨床検査室で広く使用されている。これらの調製サンプルは、標的上の速度の改善、個々の領域にわたる均一な深度プロファイル、およびより迅速なターンアラウンド・タイムを含む、ランダム断片化/ハイブリッドキャプチャの方法と比較していくつかの利点を有する。しかしながら、これらのライブラリーの短い断片の性質およびPCR産物に特徴的な均一な開始停止ゲノム位置は、ランダムハイブリッドキャプチャに基づく配列決定に一般的に使用される様々な大規模indel検出アルゴリズムの適用を妨げる。全ゲノムおよびハイブリッド捕獲配列決定アッセイにおいてindelsを検出するために多くの異なるアルゴリズムが利用可能であるが、これらはシーケンシングライブラリーの本質的に異なる性質のためにアンプリコンデータの分析には一般的にあまり適していない。これには、ローカルデノボアセンブリアルゴリズムと、ペアエンドリードのインサートサイズやマッピングされていなリードのsplitアライメントなどを行うBreakdancer(論文より ref.5)やPindel(ref.5)などのフラグメント解析メソッドが含まれる。
以前に報告されたアンプリコンベースのNGSデータにおけるindel検出のための唯一の方法は、マッピングされていなリードの監視であり、特定のアンプリコンに対して異常な割合でアンマップが存在する場合、手動でraw fastqを分析する方法である。しかし、Novoalign(Novocraft、Inc.、Selangor、Malaysia)やBWA-MEM(ref.8)のような新しいアライナーは、大部分のindelを含むリードを上手くマップするが、リードをクリッピングしたり不適切な注釈を残す可能性がある。
著者らは異なるアプローチを選択し、アンプリコンデータを利用して、臨床的に重要な体細胞変異(5bp>)を生のfastqファイルから、低い頻度のアレルまで含め、高感度に検出可能なAmplicon Indel Hunter (AIH)を開発した。In silicoの突然変異データセットでの試験を得て、検体のサンプルを使った比較では、AIHは、100bp以下のindelおよび100bp以上のindel検出で、確認済みindelsの検出のためのクラス最高のアライメントベースのアルゴリズムより優れていた。
インストール
依存
- python2.7
https://github.com/skadri01/aiHunter
git clone https://github.com/skadri01/aiHunter.git
cd aiHunter/
> python amplicon_indel_hunter.py -h
$ python amplicon_indel_hunter.py -h
usage: amplicon_indel_hunter.py [-h] [-f R1FASTQ] [-r R2FASTQ] [-o OUTDIR]
[-i INFOFILE] [-c CUSHION] [-s SIGTHRESH]
optional arguments:
-h, --help show this help message and exit
-f R1FASTQ
-r R2FASTQ
-o OUTDIR
-i INFOFILE
-c CUSHION
-s SIGTHRESH
uesaka-no-Air-2:aiHunter kazumaxneo$
ラン
テストデータをランしてみる。
解析には、ペアエンドのアンプリコンシーケンスfastqと、プライマー配列等記載したconfigファイル(example_data.amplicons.txt)、インサートのfasta(プライマー1と2の間の増幅配列(プライマー配列は除く)、が必要になる。exampleの例をのせておく。
example_data.amplicons.txt
example_data.inserts.fa
準備できたら、以下のようなコマンドを打つことで、変異が検出される。
python aiHunter.py --read1 example_data_R1_001.fastq --read2 example_data_R2_001.fastq --amp example_data.amplicons.txt --inserts example_data.inserts.fa
出力 example_data_R1_001.fastq.R2fastq.finalindelstats.vcf
引用
Amplicon Indel Hunter Is a Novel Bioinformatics Tool to Detect Large Somatic Insertion/Deletion Mutations in Amplicon-Based Next-Generation Sequencing Data.
Kadri S, Zhen CJ, Wurst MN, Long BC, Jiang ZF, Wang YL, Furtado LV, Segal JP.
J Mol Diagn. 2015 Nov;17(6):635-43.