macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

 

 タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった(Yunis and Yasmineh、1971; Bacolla et al、2008)。タンデムリピートの最近の研究は、さまざまな細胞プロセスにおける役割を明らかにし、タンデムリピートの突然変異が遺伝的障害につながる可能性があることを実証した(McFarland et al、2015; Giunta and Funabiki、2017; Song et al、2018; Black et al、 2018)。
 広範囲に研究されたショートタンデムリピート(Willems et al。2014; Gymrek et al。、2016; Saini et al。、2018)と長さが数万から数百万のウルトラロングタンデムリピート(ETR)を区別する。 ETRはアセンブリが難しいため、それらの大部分は、他の種はもちろんのこと、ヒトゲノムでもアセンブリされていないままである。セントロメアおよびペリセントロメアには、ヒトゲノムの約3%を占め、メガベース長の領域に及ぶ最長のETRが含まれている(Miga、2019)。それらは、これまでに配列を決定するすべての試みを回避したヒトゲノムの「ダークマターであり、リファレンスヒトゲノムの最大のギャップである(Hayden et al、2013; Miga et al、2019)。
パシフィックバイオサイエンス(PacBio)やオックスフォードナノポアテクノロジー(ONT)などのロングシーケンシング技術の出現により、全ゲノムシーケンスの状況が大きく変わった。ロングリードアセンブラ(Chin et al、2016; Koren et al、2017; Kolmogorov et al、2019; Ruan and Li、2019)およびロングリードとショートリードを組み合わせたハイブリッドアセンブラ(Antipov et al、 2016; Zimin et al、2017)は、ショートリードアセンブリと比較して、アセンブリされたゲノムの連続性を大幅に向上させた。さらに、ロングリードは、ヒト動原体を再構築するための半手動アプローチの成功に貢献した(Jain et al、2018a; Miga et al、2019)。 Flyeアセンブラは、ロングリードにまたがるブリッジされたタンデムリピート、およびロングリードにまたがらないいくつかの非ブリッジタンデムリピートを正常に解決する(Kolmogorov et al、2019)。 centroFlyeアセンブラ(BzikadzeおよびPevzner、2019)は、セントロメアなどの非ブリッジETRを自動的にアセンブルするように設計された。
ETRアセンブリのさまざまな代替戦略と、これらのアセンブリベンチマークのグラウンドトゥルースがないため、品質評価の問題が生じる。

(一部略)

 既存のアセンブリ品質評価ツールは、リードをアセンブリに正確にマッピングするアライナーに依存している(Li and Durbin、2009; Langmead et al。、2009; Li、2016; Li、2018)。ただし、ベンチマークでは、これらのツールはETRで頻繁に失敗することが明らかになった。たとえば、minimap2(Li、2018)は、特にアセンブリエラーのある領域で、ETRへの一部のリードのアライメントが正しくないことを示す。そのため、エラーが発生しやすいロングリードをETRに効率的にマッピングするtandemMapperツールを開発した。 TandemMapperは、tandemQUAST開発を可能にしただけでなく、より正確なリードマッピングとその後のポリッシュによりETRアセンブリの改善にもつながる。
(一部略)
 霊長類の動原体は、レトロトランスポゾンリピートとATリッチアルファサテライト、171 bpモノマーに基づくDNAリピートで構成されている(Manuelidis and Wu、1978)。人間と多くの霊長類では、連続したモノマーがタンデムに並んで高次リピート(HOR)ユニットに配置される(Willard and Waye、1987a)。 HOR内のモノマーの数とその順序は、染色体に固有である。たとえば、DXZ1と呼ばれる染色体X HORは、12個のモノマーで構成されている(Willard and Waye、1987b)。これらの12個のモノマーは、先祖の五量体サテライトリピートABCDEから進化したものであり、「C1D1E1」として表すことができる。ここでは、リードをETRにマッピングするためのツールであるtandemMapperと、ETRアセンブリを評価および改善するためのツールであるtandemQUASTを紹介する。

 

 

インストール

ubuntu18.04LTSでテストした。

本体 Github

git clone https://github.com/ablab/tandemQUAST.git
cd tandemQUAST/

#ここでは仮想環境に導入
conda create -n tandemQUAST -y
conda activate tandemQUAST
conda install --file requirements.txt

 > python tandemquast.py --help

$ python tandemquast.py --help

Usage: tandemquast.py [OPTIONS] [ASSEMBLY_FNAMES]...

 

Options:

  -l TEXT         Comma separated list of assembly labels

  -r PATH         File with reads  [required]

  --hi-fi PATH    File with HiFi reads (optional)

  -m PATH         Monomer sequence

  -o PATH         Output folder

  -t INTEGER      Threads

  --only-polish   Run polishing only

  -f, --no-reuse  Do not reuse old files

  --help          Show this message and exit.

python tandemmapper.py --help

$ python tandemmapper.py --help

Usage: tandemmapper.py [OPTIONS] [ASSEMBLY_FNAMES]...

 

Options:

  -l TEXT         Comma separated list of assembly labels

  -r PATH         File with reads  [required]

  --hi-fi PATH    File with PacBio HiFi reads (optional)

  -o PATH         Output folder

  -t INTEGER      Threads

  -f, --no-reuse  Do not reuse old files

  --help          Show this message and exit.

 

 

実行方法

tandemmapper.py -r reads_file -o output_dir assembly_file1 assembly_file2

 

引用

TandemMapper and TandemQUAST: mapping long reads and assessing/improving assembly quality in extra-long tandem repeats

Alla Mikheenko, Andrey V. Bzikadze, Alexey Gurevich, Karen H. Miga, Pavel A. Pevzner

bioRxiv preprint first posted online Dec. 23, 2019