macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムワイドにマイクロサテライトを高速検索する PERF

 

 Repetitive DNA はゲノムのかなりの割合を構成し、i)散在したリピートまたは転移可能なエレメントと ii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。繰り返しモチーフの長さに依存して、タンデムリピートは、サテライト(> 100nt)、ミニサテライト(10〜30nt)およびマイクロサテライト(1-6nt)として分類される。 Simple Sequence Repeats(SSR)またはShort Tandem Repeats(STR)としても知られているマイクロサテライトは、ゲノムに無作為に分布しており、ポリメラーゼスリップに起因して高い突然変異率を示し、その長さの増加または減少を引き起こす可能性がある(Ellegren 、2004)。その多型性が高いため、SSRはリンケージ解析(Hearne et al、1992)、遺伝子型解析(Kashi et al、1997)、DNAフィンガープリンティング(Zietkiewicz et al、1994)に非常に有用である。コード領域におけるSSRの長さの変化は、ハンチントン病および脊髄小脳失調症(Usdin、2008)などのヒトのいくつかの神経変性疾患に関連している。マイクロサテライトは、遺伝子発現のエピジェネティックな調節(Greene et al、2007; Pietrobono et al、2005)およびゲノム構成(Kumar et al、2013; Pathak et al、2013)において重要な役割を果たすことも示されている。

 それらの有用性を考慮すると、SSRの効率的な同定は、計算生物学における長年の目標であった。 SSRを特定するいくつかのツールがあるが、速度、効率、包括性、精度、使いやすさ、柔軟性という点で多くの注意点がある。既存の方法は、ヒューリスティック手法またはコンビナトリアル手法のいずれかを使用して、DNA配列からSSRを見つける(Lim et al、2013)。TRFはリピートを同定するためにBernoulli-trialsに基づく確率論的モデルを使用し(Benson、1999)、いっぽうMsDetectorはヒト染色体からのリピートデータセットで訓練された隠れマルコフモデルを用いてSSRを見出す(Girgis and Sheetlin、2013)。 MREPSは、不一致のエッジをトリミングし、誤ったSSRをフィルタリングするために、いくつかの統計的方法を使用する(Kolpakov et al、2003)。(一部略) SSRITとMISAは正規表現を使用して、与えられたモチーフ長のすべてのリピートを検索する(Temnykh、2001; Thiel et al、2003)。この方法は、モチーフ配列の途中で突然終了するリピートを選ぶことができないという欠点を有する。組み合わせアプローチは網羅的かつ正確であるが、通常、非線形時間複雑性(典型的にはO(n log n))を有する(Lim et al。、2013)。 SA-SSRと呼ばれる最近の包括的なアルゴリズムは、線形時間 O(n) でSSRを識別するために suffix arraysを使用する(Pickett et al、2016)。しかし、実際の実行時間は依然として大きすぎて、大きなゲノムの分析に実際には使用することができない。

 この論文では、PERFというツールを紹介する。PERFは、リピートセットとの直接的な文字列比較に基づいてSSRを識別するための新しいアルゴリズムを使用する。 PERFは現在の既存の方法よりも数倍高速で、100%正確で包括的でメモリ効率が高い。他のほとんどのメソッドとは異なり、著者らのアルゴリズムは繰り返しのリピートやモチーフの途中で終わるもの見逃すことはないとされる。PERFはインタラクティブで完全なスタンドアロンのHTMLレポートを生成する機能も持ち、入力ファイルに存在するすべてのSSRのダウンストリーム分析を容易にする。

 

インストール

Github

https://github.com/rkmlab/perf

pip install perf_ssr

$ perf -h

usage: perf [-h] -i <FILE> [-o <FILE>] [-a] [-l <INT> | -u INT or FILE]

            [-rep <FILE>] [-m <INT>] [-M <INT>] [-s <INT>] [-S <FLOAT>]

            [-f <FILE> | -F <FILE>] [--version]

 

Required arguments:

  -i <FILE>, --input <FILE>

                        Input file in FASTA format

 

Optional arguments:

  -o <FILE>, --output <FILE>

                        Output file name. Default: Input file name + _perf.tsv

  -a, --analyse         Generate a summary HTML report.

  -l <INT>, --min-length <INT>

                        Minimum length cutoff of repeat

  -u INT or FILE, --min-units INT or FILE

                        Minimum number of repeating units to be considered.

                        Can be an integer or a file specifying cutoffs for

                        different motif sizes.

  -rep <FILE>, --repeats <FILE>

                        File with list of repeats (Not allowed with -m and/or

                        -M)

  -m <INT>, --min-motif-size <INT>

                        Minimum size of a repeat motif in bp (Not allowed with

                        -rep)

  -M <INT>, --max-motif-size <INT>

                        Maximum size of a repeat motif in bp (Not allowed with

                        -rep)

  -s <INT>, --min-seq-length <INT>

                        Minimum size of sequence length for consideration (in

                        bp)

  -S <FLOAT>, --max-seq-length <FLOAT>

                        Maximum size of sequence length for consideration (in

                        bp)

  -f <FILE>, --filter-seq-ids <FILE>

  -F <FILE>, --target-seq-ids <FILE>

  --version             show program's version number and exit

uesaka-no-Air-2:~ kazumaxneo$ 

 

ラン

EnsemblからGRCh38のchr20をダウンロードして検索してみる(リンク)。

perf -i Homo_sapiens.GRCh38.dna_rm.chromosome.20.fa -a
  • -i    Input file in FASTA format
  • -a   Generate a summary HTML report

Homo_sapiens.GRCh38.dna_rm.chromosome.20_perf.tsvが出力される。BED形式に乗っ取っている。

 

$ head Homo_sapiens.GRCh38.dna_rm.chromosome.20_perf.tsv 

20 60181 60193 AATAT 12 - 2 TATAT

20 67482 67494 AAAGGC 12 - 2 GCCTTT

20 68650 68662 AAACTG 12 - 2 TTTCAG

20 82666 82679 ACTCAG 13 + 2 CTCAGA

20 83500 83514 AGAGGC 14 - 2 TGCCTC

20 84150 84162 AAGGAT 12 - 2 CCTTAT

20 84290 84302 AAGG 12 + 3 AAGG

20 84606 84621 AAAAC 15 + 3 AAAAC

20 88061 88073 AAGTG 12 - 2 TCACT

20 88562 88574 AAATAC 12 + 2 CAAATA

説明

f:id:kazumaxneo:20180401013300j:plain

公式より転載。

 

-aをつけるとhtmlレポートも出力される。

f:id:kazumaxneo:20180401012924j:plain

f:id:kazumaxneo:20180401012926j:plain

f:id:kazumaxneo:20180401013547j:plain

f:id:kazumaxneo:20180401013552j:plain

 

引用

PERF: an exhaustive algorithm for ultra-fast and efficient identification of microsatellites from large DNA sequences.

Avvaru AK, Sowpati DT, Mishra RK

Bioinformatics. 2018 Mar 15;34(6):943-948.