MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴリズムを採用している。 MECATは、ラージゲノムの効率的なde novo アセンブリに使用できる。例えば、2.0GHz CPUを搭載した32スレッドコンピュータ環境下では、MECATは54xのSMRTヒトゲノムシーケンスデータを9.5日でアセンブリできる。これは現在のPBcR-Mhap pipelineの40倍速い。また、MECATを用いて、diploidのヒトゲノムの102x SMRTデータをわずか25日でアセンブリできる。後者のアセンブリは、54倍の一倍体SMRTデータから組み立てられた以前のゲノムの品質を大幅に改善するものである。 MECATの性能は、PBcR-Mhapパイプライン、FALCONおよびCanu(v1.3)と5つの実際のデータセットで比較した。 MECATによって作成されたコンティグの品質は、PBcR-MhapパイプラインおよびFALCONと同等以上だった。Githubの表に2.0GHzのCPUと512GBのRAMメモリを備えた32スレッドコンピュータでの上記ツールの比較がある(リンク)。
mecat2pw, a fast and accurate pairwise mapping tool for SMRT reads
mecat2ref, a fast and accurate reference mapping tool for SMRT reads
mecat2cns, correct noisy reads based on their pairwise overlaps
mecat2canu, a modified and more efficient version of the Canu pipeline. Canu is a customized version of the Celera Assembler that designed for high-noise single-molecule sequencing
5、mecat2canu: a modified and more efficient version of the Canu pipeline. Canu is a customized version of the Celera Assembler that designed for high-noise single-molecule sequencing
その名前で示されるように、ポリメラーゼのリードスルーは、ポリメラーゼが1つの遺伝子を次の遺伝子に読み込み、2つの隣接する遺伝子の間にキメラを作成するときに起こる。当初、例外であると考えられていたこの機構は、EST(発現配列タグ)およびcDNA(相補的DNA)の大量のコレクションが利用可能になりゲノムにマッピングされ、そしてENCODE (Encyclopedia of DNA Elements)コンソーシアムが注釈付きタンパク質コード遺伝子に関連するトランスクリプトームを系統的に調査した[ref.6-9]結果、哺乳動物に広く広がっていることが判明している[ref.3-5]。隣接する遺伝子のエキソン間、好ましくは上流(5 ')遺伝子の最後から2番目のエキソンと下流(3')遺伝子の第2エキソンとの間でリードスルーが起こり、両親のドメインを含む新しいタンパク質が得られる。それゆえ、種のプロテオーム多様性を増加させる[ref.1,3,4,10,11]。それらは脊椎動物においても大部分保存されており[ref.11,12]、親遺伝子の一方または両方の発現を調節する方法となりうる[ref.12]。
現在、indels検出には2つの主要なパラダイムが使用されている。最も一般的なアプローチは、リードマッパー(BWA、Bowtie、Novoalignなど)を使用してすべてのリードをリファレンスゲノムにマッピングすることだが、利用可能なアルゴリズムは数塩基以上のindel間のマッピングには有効ではない。先進的なアプローチではより長い変異を検出するためにペアエンド情報を使い local realignments を行うが(例えば、GATK UnifiedGenotyper[ref.1]およびDindel[ref.9])、実際には、より長い変異(≧20bp)ではその感度が大幅に低下する。 Split-read methods(例えば、Pindel[ref.10]およびSplitread[ref.11])は、理論的には任意のサイズの欠失を検出できるが、現在のシーケンス技術ではリード長が短いために(論文執筆時点)挿入を検出する能力は限られている。第2のパラダイムは、デノボ全ゲノムアセンブリを行い、組み立てられたコンティグとリファレンスゲノムとの間の変異を検出することからなる[ref.12,13]。より大きな突然変異を検出する可能性を有する一方で、実際には、このパラダイムは、ホモ接合型およびヘテロ接合型突然変異を正確に報告するために、細かくかつ局在化した分析が必要である。最近では、de novo aasemblyを使ったGATK HaplotypeCaller、SOAPindel[ref.14]、およびCortex[ref.15]の3種類のアプローチが開発されている。他の最近のアプローチであるTIGRA[ref.16]も、ローカルアセンブリを使用するが、ブレークポイントのみ検出するよう調整されており、indelsの配列は報告しない。
Change this number according to the type of study (germline, somatic, denovo) and the expected coverage.
Smaller values will give more sensitivity but increase the number of false-positive calls.
minimum variant allele frequency VAF (altCoverage/totalCoverage)
Similarly to the minimum alternative count parameter, smaller values will increase sensitivity but reduce specificity.
maximum chi-squared score:
Chi square test statistic computed using the reference and alternative coverage for the mutation.
Larger values will give more sensitivity but produce a large number of false-positives.
For germline and denovo discovery we recommend using chi-square score ≤ 20 to select high confidence indels.
minimum fisher exact test score:
Fisher exact test statistic computed using the reference and alternative counts in tumor and normal samples.
Goal is to test the independence between the allele balances in the tumor and the normal.
We recommend using a fisher score > 10 to select high confidence somatic indels.
ヒトのwhole exomeをモデルに開発されているが、whole genomeにも使用できる。WGS に使用する時は、メモリ使用量の関係から染色体ごとに実施するよう推奨されている。またウィンドウサイズをdefaultの400から"--window 600"に変更することが提案されている(--window <int> : window-size of the region to assemble (in base-pairs) [default 400] )。 "--output-formatannovar"をつけると、annnovarフォーマットで出力できる(デファルトはvcf)。
引用
Accurate detection of de novo and transmitted indels within exome-capture data using micro-assembly
Giuseppe Narzisi, Jason A. O'Rawe, Ivan Iossifov, Han Fang, Yoon-ha Lee, Zihua Wang, Yiyang Wu, Gholson J. Lyon, Michael Wigler, and Michael C. Schatz
Nat Methods. 2014 Oct; 11(10): 1033–1036. Published online 2014 Aug 17.
Reducing INDEL calling errors in whole-genome and exome sequencing data
Fang H, Wu Y, Narzisi G, O’Rawe JA, Jimenez Barron LT, Rosenbaum J, Ronemus M, Iossifov I, Schatz MC, Lyon GJ
Genome Medicine (2014) doi:10.1186/s13073-014-0089-z
Indel variant analysis of short-read sequencing data with Scalpel
Fang H, Grabowska EA, Arora K, Vacic V, Zody M, Iossifov I, O’Rawe JA, Y Wu, Jimenez-Barron LT, Rosenbaum J, Ronemus M, Lee Y, Wang Z, Dikoglu E, Jobanputra V, Lyon GJ, Wigler M, Schatz MC, Narzisi G*,
Preprint in bioRxiv (2016) doi: dx.doi.org/10.1101/028050
Magic-BLAST, an accurate RNA-seq aligner for long and short reads Grzegorz M. Boratyn, Jean Thierry-Mieg, Danielle Thierry-Mieg, Ben Busby & Thomas L. Madden BMC Bioinformatics volume 20, Article number: 405 (2019)