macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンデムリピートなどのミスアセンブリを分析する TandemQUAST

 

 タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトで、タンデムリピートが真核生物のゲノムに豊富にあることが明らかになった(Yunis and Yasmineh、1971; Bacolla et al、2008)。タンデムリピートの最近の研究は、さまざまな細胞プロセスにおける役割を明らかにし、タンデムリピートの変異が遺伝的障害につながる可能性があることを示した(McFarland et al、2015; Giunta and Funabiki、2017; Song et al、2018; Black et al、 2018)。
 広く研究されたショートタンデムリピート(Willems et al、2014; Gymrek et al、2016; Saini et al、2018)と、長さが数万から数百万の ウルトラロングタンデムリピート(ETR)を区別する。 ETRはアセンブリが難しいため、それらの大部分は他の種はもちろんのこと、ヒトゲノムにおいてさえもアセンブリされないままである。セントロメアとペリセントロメアには、いくつかの最長のETRが含まれている。これは、ヒトゲノムの約3%を占め、メガベース長の領域に及ぶ(Miga、2019)。それらは、これまでに配列を決定するすべての試みを回避したヒトゲノムの「ダークマター」であり、リファレンスヒトゲノムの最大のギャップである(Hayden et al、2013; Miga et al、2019)。
 パシフィックバイオサイエンス(PacBio)やオックスフォードナノポアテクノロジー(ONT)などのロングリード技術の出現により、全ゲノムシーケンスの状況が大きく変わった。ロングリードアセンブラ(Chin et al、2016; Koren et al、2017; Kolmogorov et al、2019; Ruan and Li、2019)およびロングリードとショートリードを組み合わせたハイブリッドアセンブラ(Antipov et al、 2016; Zimin et al、2017)は、ショートリードアセンブリと比較して、アセンブリされたゲノムの連続性を大幅に向上した。さらに、ロングリードは、ヒトの動原体を再構築するための半手動アプローチの成功に貢献した(Jain et al、2018a; Miga et al、2019)。 Flyeアセンブラは、ロングリードにまたがるブリッジされたタンデムリピート、およびロングリードにまたがらないいくつかの非ブリッジタンデムリピートを正常に解決する(Kolmogorov et al、2019)。 centroFlyeアセンブラ(BzikadzeおよびPevzner、2019)は、セントロメアなどの非ブリッジETRを自動的にアセンブルするように設計された。
 ETRアセンブリのさまざまな代替戦略と、これらのアセンブリベンチマークのグラウンドトゥルースがないため、品質評価の問題が生じる。同様の問題は、GAGE(Salzberg et al、2011)やQUAST(Gurevich et al、2013; Mikheenko et al、2018)、metaQUAST(Mikheenko et al、2016)およびrnaQUAST(Bushmanova et al、2016)などのショートリードのゲノムアセンブリ評価ツールと特化した品質評価によって対処されている。ただし、これらのツールは既知のリファレンスに基づいている。ETRの分析にはアセンブリ品質を評価するリファレンスフリーのアプローチが必要なため、ETRの分析には適用できない。同時に、既存のリファレンスフリーツールは、ペアエンドリードアラインメントまたは遺伝子コンテンツの分析に基づいている(Hunt et al、2013; Clark et al、2013; Ghodsi et al、2013;Simãoet al、2015) 。

 既存のアセンブリ品質評価ツールは、リードをアセンブリに正確にマッピングするアライナーに依存している(Li and Durbin、2009; Langmead et al、2009; Li、2016; Li、2018)。ただし、ベンチマークでは、これらのツールがETRで失敗することが多いことが明らかになっている。たとえば、minimap2(Li、2018)は、特にアセンブリエラーのある地域で、ETRへの一部のリードのミスアラインメントをもたらす。そのため、エラーが発生しやすいロングリードをETRに効率的にマップするtandemMapperツールを開発した。 TandemMapperはtandemQUASTの開発を可能にするだけでなく、より正確なリードマッピングとその後のポリッシングによるETRアセンブリの改善にもつながった。
 ETRアセンブリの品質を評価する最初の試みはセントロメア特異的であり(Bzikadze and Pevzner、2019)、ETRアセンブリの一般的な品質評価ツールには至っていない。セントロメアの種および染色体固有の性質により、他の種のETRへの同じアプローチの適用が妨げられる。ただし、セントロメア組織の共通の原則を利用して、ETR用の汎用アセンブリ評価ツールを開発できる。
 霊長類のセントロメアは、レトロトランスポゾンリピートとATリッチαサテライト、171 bpモノマーに基づくDNAリピートで構成されている(Manuelidis and Wu、1978)。ヒトと多くの霊長類では、連続したモノマーがタンデムに並んで高次リピート(HOR)ユニットに配置されている(Willard and Waye、1987a)。 HOR内のモノマーの数とその順序は、染色体に固有である。たとえば、染色体X(DXZ1と呼ばれる)の HORは、12のモノマーで構成されている(Willard and Waye、1987b)。これらの12のモノマーは、先祖代々の五量体サテライトリピートABCDEから進化したもので、C1D1E1A1B1C2D2E2A2B2C3D3.として表すことができる。(一部略)

 ここでは、リードをETRにマッピングするた目のツールであるtandemMapperと、ETRアセンブリを評価および改善するためのツールであるtandemQUASTを紹介する。タンデムマッパーとその後のポリッシングを使用して、centroFlye(Bzikadze and Pevzner、2019)とキュレートされたセミマニュアルアプローチ(Miga et al、2019)の両方によって生成されたヒトセントロメアXのアセンブリを変更した。(一部略)
TandemMapperとtandemQUASTは、https://github.com/ablab/tandemQUASTGitHubコマンドラインユーティリティとして自由に利用できるオープンソースソフトウェアである。

 


 

ここでは TandemQUASTのみ紹介します。

インストール

macos10.14にてcondaの仮想環境を作成してテストした。

本体 Github

https://github.com/ablab/TandemTools

#依存が多いので、ここではcondaで作成した仮想環境に導入する。
conda create -n tandemtools -y
conda activate tandemtools
git clone https://github.com/ablab/TandemTools.git
cd TandemTools/
conda install --file requirements.txt -y

#jellyfishも必要
conda install -c bioconda -y jellyfish

./tandemquast.py --help

$ ./tandemquast.py --help

Usage: tandemquast.py [OPTIONS] [ASSEMBLY_FNAMES]...

 

Options:

  --nano PATH     File with ONT reads

  --pacbio PATH   File with PacBio CLR reads

  -o PATH         Output folder  [required]

  -t INTEGER      Threads

  -m PATH         Monomer sequence

  -l TEXT         Comma separated list of assembly labels

  --hifi PATH     File with PacBio HiFi reads

  --only-polish   Run polishing only

  -f, --no-reuse  Do not reuse old files

  --help          Show this message and exit.

./tandemmapper.py

$ ./tandemmapper.py 

Usage: tandemmapper.py [OPTIONS] [ASSEMBLY_FNAMES]...

Try 'tandemmapper.py --help' for help.

 

Error: Missing option '-o'.

 

 

テストラン

ロングリードのfastqとアセンブリFASTAファイルを指定する。

 ./tandemquast.py --nano test_data/simulated_reads.fasta -o test test_data/simulated_polished.fa test_data/simulated_del.fasta 
  • --nano       File with Oxford Nanopore reads used for ETR assembly
  • --pacbio    File with PacBio CLR reads used for ETR assembly
  • -o    Folder to store all result files

report/が最終出力。simulated_delとsimulated_polishedの比較。

f:id:kazumaxneo:20200317220604p:plain

discordance_simulated-polished_vs_simulated-del.png

f:id:kazumaxneo:20200318080308p:plain

simulated-polished_vs_simulated-del.png

f:id:kazumaxneo:20200318080320p:plain

simulated-del_kmer_analysis.png

f:id:kazumaxneo:20200318080332p:plain

simulated-polished_kmer_analysis.png

f:id:kazumaxneo:20200318080557p:plain

simulated-del_bp_analysis.png

f:id:kazumaxneo:20200318080402p:plain

simulated-del_bp_analysis.png

f:id:kazumaxneo:20200318080443p:plain

simulated-del_coverage.png

f:id:kazumaxneo:20200318080512p:plain

simulated-polished_coverage.png

f:id:kazumaxneo:20200318080525p:plain

 レポートの見方は論文を読んで確認して下さい。

 

tandemquastは数十万から数百万塩基のウルトラロングタンデムリピート向けに開発されており、より短いタンデムリピートには使わないことが強く推奨されています。注意してください。

引用

TandemMapper and TandemQUAST: mapping long reads and assessing/improving assembly quality in extra-long tandem repeats

Alla Mikheenko, Andrey V. Bzikadze, Alexey Gurevich, Karen H. Miga, Pavel A. Pevzner