ロングリードのマッピングからタンデムリピートを検出する tandem-genotypes

　タンデムリピートは、ゲノムDNA中に複数のコピー配列が隣接して存在する領域である。これらの領域は、細胞分裂中の複製エラーのために個体間で非常に可変である。それらは、疾患および健康における表現型変動のソースでもある。タンデムリピートのコピー数改変により、30以上のヒトの病気が引き起こされている（ref.1）。
　リファレンスと比較した病原性コピー数の変化の範囲は、数個から数千まで変化し、リピート単位長は、 3（トリプレット反復病）〜数千（マクロサテライト反復）　に及ぶ。このような多様な根底から予想されるように、疾患メカニズムもまた変化し得る。タンパク質コード領域におけるtriplet-repeat expansion diseases の周知の例は、ポリグルタミン病（例えば、脊髄および球筋萎縮、ハンチントン病）である。グルタミンをコードするCAGまたはCAAコドンのトリプレットリピート拡大は、毒性タンパク質凝集および神経細胞死を招く。トリプレットリピート病の別の例は、DMPK遺伝子からの転写物の3'UTRにおけるCUGリピート拡大によって引き起こされ、スプライシングファクタータンパクを隔離し、異常なスプライシングを引き起こし、複数の症状をもたらす毒性のある機能獲得転写産物を生じる。機能獲得の突然変異だけでなく、転写サイレンシングに起因するプロモーター領域における機能喪失の繰り返し変化も報告されている（例えば、脆弱X症候群）。短いタンデムリピート疾患に加えて、ヒト疾患におけるリピートコピー数異常も、マクロサテライトリピート（D4Z4）において報告されている。 D4Z4リピートの短縮は、筋肉細胞に毒性作用を有するフランキング遺伝子DUX4の異常な発現を引き起こす。コード領域における病原性反復拡大の閾値は、通常100コピー未満であり、時にはいくつかのコピーの相違によっても疾患（例えば、眼咽頭筋ジストロフィー）を引き起こすことがある。対照的に、イントロンまたはUTRにおけるタンデムリピート伸長を引き起こすいくつかの疾患は、非常に長くなり得る（例えば、DMPK）。さらに、いくつかの反復は、異なる配列（例えば、DMPK、ATXN10、SAMD12）によって中断され、正確なリピート構造を解析することが困難になる。
　高スループットのショートリードシーケンサーが臨床遺伝学に導入されてからおよそ10年が経った。主にターゲットシーケンス解析（例えば全エキソームシーケンス）のおかげで、特にコード領域における小さなサイズのヌクレオチド変化が多数同定されている。しかし、診断率は30％（使用されている診断プラットフォームによって異なる）のままであり、Mendelian病の大部分は未解決である。多くの理由があるかもしれないが、最も単純なのは、残りの患者が「非コード領域」に突然変異を有しているか、またはショートリードシーケンス技術の限界のために見過ごされたコード領域に突然変異を有する可能性があることである。 1つの候補はタンデムリピート領域であり、これは従来技術によってゲノム全体を解析することは困難である。疾患を引き起こすタンデムリピート数変化を同定するには、通常、古典的な遺伝子技術（すなわち、連鎖解析、サザンブロットなど）および多数のファミリーにおけるtargeted repeat region analysis によって実現される。
　最近のロングリード・シーケンシング技術の進歩は、リードがリピート全体を十分含むことができ、隣接するユニークなシーケンスを使用して解析できるので、良い解決策を提供できる。非常に最近、PacBioまたはナノポアシーケンサーのようなロングリードシーケンサーが臨床遺伝学に来ている。 2018年現在、これらの技術は精度とデータ出力の点で絶え間なく向上している。しかし、臨床検査室では、費用対効果と大規模データの計算負荷のためにまだ困難なままである。可能であれば低カバレッジデータ（〜10X）でタンデムリピート変化を検出できることが望ましい。
　著者らは、ロングリード・シーケンシングからタンデムリピートのコピー数を決定する既存の方法を2つ認識している：PacmonSTRおよびRepeatHMM。これらのメソッドは、リファレンスゲノムにリードをアライメントし、リファレンスのタンデムリピート領域をカバーするリードを取得し、これらのリードと繰り返しシーケンスとの洗練された確率ベースの比較を実行する。しかし、この研究から、それらの方法が現在のロングリードシーケンスデータでは必ずしも成功するとは限らないことがわかる。
　著者らは最近、ゲノムリアレンジメントとduplicationを考慮したゲノムとロングリードのアライメントに、LASTソフトウェアを使用する方法を提唱している（pubmed）。この方法には2つの重要な特徴がある。最初に、データの挿入、欠失、および各種置換の割合を決定し、これらの率を使用して最も可能性の高いアライメントを決定する。第2に、各リードを分割し（1つまたは複数の）、各部分で最も可能性の高い位置合わせを行うことである。この方法は、多様なタイプのゲノムリアレンジメントを見出したが、その中で最も一般的なものは、tandem multiplication （例えばheptuplication ）であり、しばしばタンデムリピート領域であった（pubmed）。
ここでは、ロングリードをリファレンスゲノムにLASTでアライメントさせ、これらのアライメントを非常に効果的な方法で分析することにより、タンデムリピートコピー数の変化を検出する。著者らは、タンデムリピートシーケンスを分析することでいくつかの実用上の困難を指摘しており、これは我々（著者ら）のクルードな分析方法の動機づけとなっている。この手法は、比較的低いカバレッジシーケンシングデータであってもゲノム全体でタンデムリピートを解析することができる。我々（著者ら）は、このツールが、ショートリードシーケンスでは見過ごされているヒト疾患におけるタンデムリピート領域での疾患原因突然変異の同定に非常に有用であると考えている。

tandem genotypesに関するツイート。

インストール

mac os10.12を使用。lastはpython2.7環境で実行し、nanosvはAnaconda3.5.2環境で実行した。

依存

LAST

git clone https://github.com/mcfrith/tandem-genotypes.git
cd tandem-genotypes/

> python tandem-genotypes -h

$ python tandem-genotypes -h

Usage: tandem-genotypes [options] microsat.txt alignments.maf

Try to indicate genotypes of tandem repeats.

Options:

-h, --help show this help message and exit

-g FILE, --genes=FILE

read genes from a genePred or BED file

-m PROB, --mismap=PROB

ignore any alignment with mismap probability > PROB

(default=1e-06)

--postmask=NUMBER ignore mostly-lowercase alignments (default=1)

-p BP, --promoter=BP promoter length (default=300)

-s N, --select=N select: all repeats (0), non-intergenic repeats (1),

non-intergenic non-intronic repeats (2) (default=0)

-u BP, --min-unit=BP ignore repeats with unit shorter than BP (default=2)

-f BP, --far=BP require alignment >= BP beyond both sides of a repeat

(default=100)

-n BP, --near=BP count insertions <= BP beyond a repeat (default=60)

--mode=LETTER L=lenient, S=strict (default=L)

-v, --verbose show more details

ラン

こちらを参考にmafファイルを作成する。

https://github.com/mcfrith/last-rna/blob/master/last-long-reads.md

１、ゲノムの準備。

#1-1 リピートマスクなしの場合。16thread使いindex
lastdb -P16 -uNEAR -R01 mydb genome.fa
#mydb~というファイルが複数できる。2に進む。

#1-2 リピートマスクあり。windowmaskerを使う（pubmed）。
windowmasker -mk_counts -in genome.fa > genome.wmstat
windowmasker -ustat genome.wmstat -outfmt fasta -in genome.fa > genome-wm.fa
#リピートが小文字になったコピーファイルgenome-wm.faが作成される。
lastdb -P16 -uNEAR -R11 -c mydb genome-wm.fa

２、シーケンスデータがfastqなら、ここでfastaに変換しておく。

awk '/>/ {$0 = ">" ++n} 1' nanopore.fq > nanopore.fa

３、last-train（リンク）を使い、置換とgapのレートを算出する。16スレッド指定している。

last-train -P16 mydb nanopore.fa > myseq.par

事前設定されたパラメータ条件でマッピングが行われ、よりよいパラメータ条件が出力される。

４、Duplicationやリアレンジメントを考慮し、リードをゲノムにアライメント。3のlast-trainで得られたパラメータ条件ファイルmyseq.parを指定している。

lastal -P16 -p myseq.par mydb nanopore.fa | last-split -m1e-6 - > myseq.maf

５、tandem-genotypesを動かすには、マイクロサテライトやリピートファイルのファイルを与える必要がある。UCSC（リンク）からダウンロードして使う時は、最初の4カラムを抽出する。例えばhumanのマイクロサテライトなら、リンク先からmicrosatelliteを選んでダウンロード。"cut -f 1-4 input"で先頭4カラムを抽出。

f:id:kazumaxneo:20180710115854j:plain

以下のようなフォーマットになっていればOK（GIthubより）。

chr22  41914573  41914611  GCGCGA

chr22  41994883  41994923  TG

次のステップで使うので、遺伝子のBEDファイルもUCSCのtable browserからダウンロードしとく（humanリンク）。

６、tandem-genotypesを使い、タンデムリピートを検出する。microsat.txtがstep5で調整したリピートファイル。refGene.txtはstep5でダウンロードしたbedファイル。

tandem-genotypes -g refGene.txt microsat.txt myseq.maf > tg.txt

７、ヒストグラムをプロット。

python tandem-genotypes-plot tg.txt

リピートの出現回数のヒストグラムPDFが出力される。

引用

Robust detection of tandem repeat expansions from long DNA reads

Satomi Mitsuhashi, Martin C Frith, Takeshi Mizuguchi, Satoko Miyatake, Tomoko Toyota, Hiroaki Adachi, Yoko Oma, Yoshihiro Kino, Hiroaki Mitsuhashi, Naomichi Matsumoto

bioRxiv preprint first posted online Jun. 27, 2018; doi: http://dx.doi.org/10.1101/356931.

論文追記 2019 3/24

Tandem-genotypes: robust detection of tandem repeat expansions from long DNA reads
Satomi Mitsuhashi, Martin C. Frith, Takeshi Mizuguchi, Satoko Miyatake, Tomoko Toyota, Hiroaki Adachi, Yoko Oma, Yoshihiro Kino, Hiroaki Mitsuhashi, Naomichi Matsumoto
Genome Biology 2019 20:58