YSTRなどのショートタンデムリピートを探す STRScan

　マイクロサテライトまたは単純配列反復（SSR）とも呼ばれる短いタンデムリピート（STR）は、タンデム反復ユニット（1〜6 bps）を約2〜30個含む短いストレッチのDNAである。 STRは、ヒトなどの哺乳動物ゲノムを含む多くの原核生物および真核生物ゲノムに存在する[論文より　1,2]。 50万以上のSTRがヒトゲノムで特徴づけられており、ヒトゲノム全体の約3％を構成している[ref.3]。多型性（polymorphism）が高いため、STRは遺伝マーカーとして一般的に使用されている[ref.4-7]。特に、STR遺伝子座の小さなセットは、1つの（時には未知の）供給源からの少量のヒトDNAにおいてPCRを用いて複数のSTR遺伝子座が増幅された同一性および親の検査に使用することができる（ref.8,9）。 PCR産物の長さは、他の供給源由来の1つ以上のヒトDNAサンプル（例えば、フォレンジックデータベース中）と比較される。このSTRタイピング手続きは、大部分が標準化されており、そのようなテストの対象となるSTR遺物は、STRBase [ref.10]などのpublucデータベースに収集されている。

　STRは大部分が「ジャンクDNA」と考えられているが、STRの中にはタンパク質コード遺伝子が含まれており、その産物は転写調節に関与するグルタミンリッチなドメインなど高等生物に機能的役割を果たすことが示されている[ref.11]。非コード領域のSTRでも、それらの下流遺伝子の発現調節に関与している可能性がある[ref.12]。特に、トリヌクレオチドリピートの不安定な拡大は、ヒト疾患に関連することが知られている[ref.13]。抜群の例はハンチントン病であり、ハンチントン（HTT）遺伝子におけるCAGトリプレットのタンデムリピートの拡大によって引き起こされ、脳変性に至る可能性のある異なるタンパク質形態をもたらす遺伝的な神経変性疾患である[ref.14]。したがって、疾患感受性対立遺伝子におけるSTRプロファイリングは、これらの遺伝的障害を遺伝する高いリスクを有する個体のための遺伝子検査ツールとしてしばしば用いられる[ref.15]。

　STRの伝統的な実験分析は、プライマーをSTRに隣接するユニークな領域に設計し、PCRによる標的STR遺伝子座を増幅し、続いてゲル電気泳動を用いたPCR産物の長さ測定が行われる。長さはSTRのコピー数によって決まる。近年、次世代シーケンシング（NGS）技術の急速な進歩により、全ゲノムシーケンシング（WGS）がより手頃なものになっている。Tandem repeat finder[ref.16]のような従来のソフトウェアツールは、ヒトゲノムのようなアセンブリされたゲノム配列から新規なSTRを検出することができる[ref.17]。 WobデータのSTRプロファイリングに直接適用できるlobSTR [ref.18]やSTR-FM [ref.19]などの新しいソフトウェアツールとパイプラインも開発されている。最近の研究では、NGSデータからSTRを分析する能力が示されており、ヒト染色体STR（Y-STR）のプロファイルの分析を通じて、ヒトゲノム配列データからヒト個体の姓を推測することができ、オンラインの系譜（genealogy）データベース[ref.20]などがある。ゲノムワイドのSTRプロファイリングツールは、集団におけるSTR変異の調査を可能にしている[ref.19,21,22]。かなりの数のSTR遺伝子座がヒト集団中に広範に発現され、これはヒトゲノムにおける新規なregulatory variantsセットを表すかもしれないことが示された（ref.23）。

　本稿では、次世代シーケンシング（NGS）データのSTRプロファイリングのためのスタンドアロンのソフトウェアツールSTRScanを紹介する。ここでは、STRプロファイリングのためにターゲットアプローチを採用した。ゲノム全体スケール（lobSTRまたはSTR-FMの目標）ですべてのSTRを採掘するのではなく、ユーザーが定義したSTR locusのサブセット、つまり法医学または遺伝子検査に有用であり[24]、よって時間がかかるゲノムワイドのマッピング手順を回避するということである。結果として、本発明者らの方法は、リファレンスゲノム中から線状DNA配列として表されるSTR遺伝子座を配列比較することによる制限は起きず、DNA配列中のSTR同定のためファインチューニングしたアラインメントアルゴリズムを採用できることになる。本発明者らの方法は、全ゲノムシーケンシングデータからのマイニングに加え、PCRによるSTRエンリッチメントを行ったターゲットSTRのNGSデータに直接適用することができる。

　STRScanにおいて、各STR遺伝子座は1つまたは複数のタンデムコピーを含むパターンとその間にある配列によって表される。これはリファレンスゲノムから構築できる（例えばヒト）、そしてgreedy seed-extension戦略を使用して、シーケンシング配列の各STR遺伝子座を同定する（一部略）。

　著者らは、Sangerシーケンサー[ref.26]およびIlluminaシーケンサー（1000 Genomes Project [ref.27]によって生成された）の全ゲノムシーケンシング（WGS）データに対してSTRScanを試験した。 STRScanは、lobSTRやSTR-FMのような既存のソフトウェアツールと比較して、同等かそれ以下の計算時間を使用しながら、NGSデータからより多くのSTRを大幅に（平均20％）識別することができた。STRScanはDNA増幅と続く次世代シーケンシングによるSTRタイピングに使う準備が整っている。

STRScanに関するツイート。

STRScan HP

インストール

cent OS6のpython2.7.10でテストした。

依存

python2

プログラム本体は公式HPからダウンロードする。

http://darwin.informatics.indiana.edu/str/

tar -zxvf STRScan.tar.gz
cd STRScan/
make #binaryがはあるがsegmentation errorを起こすなら再ビルド

> ./STRScan

$ ./STRScan -h

./STRScan: option requires an argument -- 'h'

STRScan -i inpfile -p patfile -o outfile -g ngap -w window

-i InpFile: The input file name of sequence reads

-p PatFile: The input file name of short tandem repeat (STR) patterns

-o OutFile: The output file with profiled repeat copies

-g maximum allowed gaps

-w maximum allowed windows of copy numbers

-q: input file is in fastq format (default in fasta format)

-l: minimum lengths of the supported alignments of the spanning sequence

テストラン

cd STRScan/example/

ランにはshort tandem repeatファイルが必要になる。テストではYSTR_pat（Y染色体のSTR:wiki）を使う。

> head -n 20 YSTR_pat

$ head -n 20 YSTR_pat

>DYS19 (TCTA)12CCTA(TCTA)3

atgccacccttttattatttctacggatattacttggactggaagacaag

gactcaggaatttgctggtcaatctctgcacctggaaatagtggctgggg

caccaggagtaatacttcgggccatggccatgtagtgaggacaaggagtc

catctgggttaaggagagtgtcactata

---

aaacactatatatatataacactatatatataatactatatatatattaa

aaaacactataacagaaactcagtagtcatagtgaaatcaaaaaataatc

acagtcaatttgatctcatacctagactgaaatatgaaacttcaaaagaa

aagaatgttaagaactttgggcttgtcaaaattttcctacatagataa

---

>DYS19 (TAGA)3TAGG(TAGA)12

gattattttttgatttcactatgactactgagtttctgttatagtgtttt

ttaatatatatatagtattatatatatagtgttatatatatatagtgttt

---

tatagtgacactctccttaacccagatggactccttgtcctcactacatg

gccatggcccgaagtattactcctggtgccccagccactatttccaggtg

---

>DYS385a (GAAA)14

agtgcatgtaatcccagctacttgggaggctgaggcagggtaattgtttg

このshort tandem repeatリストが指定したFASTAファイルtest.faに見つかるかを調べる。

STRScanを実行する。

STRScan -i test.fa -p YSTR_pat -o test-5.out -g 5 -w 3 -l 5

検索結果のFASTAとhit部位の情報ファイルが出力される。

残り３つのshort tandem repeatファイルでも同様にランする。

STRScan -i test.fq -p YSTR_pat -o test_fq-5.out -g 5 -w 3 -l 5 -q
STRScan -i test.fq -p CODIS_pat -o test_c-5.out -g 5 -w 3 -l 5 -q 
STRScan -i test.fq -p CODIS_pat -o test_c_fq-5.out -g 5 -w 3 -l 5 -q

bedに変換する。

python ../ParseResult.py -r1 ref_CODIS.bed -f1 test_c-5.out | awk '!NF || !seen[$0]++' > test_c-5.bed

> cat test_c-5.bed

$ cat test_c-5.bed

CSF1PO -8|1 4 11 13

D7S820 NA|0 4 0 13

First column: STR Marker
Second column: (STRScan allele -Reference allele)*STR period | Number of supporting reads
Third column: STR period Fourth column: STRScan reported allele
Fifth column: reference allele

ラン

fastqの分析。fastaフォーマットの場合は"-q"を外す。

STRScan -i input.fa -p pattern_file -o output -g 5 -w 3 -l 5 -q

-i the reads file (in fasta or fastq format; default is fasta, for fastq input, use -q)
-p the input file of the STR library (in the format as you know)
-o there output report file (there is also another file with .seq ext with the matched reads sequences in fasta format)
-g alignment bandwidth, default 5
-l the minimum length for the spanning sequence (upstream and downstream), default 5
-w the maximum copy number exceeding the given copy number of STR, default 3 (e.g., for (CTT)10, the algorithm will allow for maximum 13 copies of the repeat units).
-q input file is in fastq format (default in fasta format)