Extra-longタンデムリピート(ETR)は真核生物のゲノムに広く存在し、染色体分離などの基本的な細胞内プロセスに重要な役割を果たしている。新しいロングリード技術によってETRのアセンブリが可能になったが、その品質を評価するツールがないため、アセンブリの精度を評価することは困難である。さらに、エラーが起こりやすいリードのETRへのマッピングは依然として未解決の問題であるため、ETRアセンブリのドラフトをどのように研磨すればよいのかも明らかではない。
これらの問題に対処するため、本著者らは、リードをETRにマッピングするためのTandemMapperツールと、ETRアセンブリを研磨し、その品質を評価するためのTandemQUASTツールを含むTandemToolsソフトウェアを開発した。TandemToolsはETRアセンブリのエラーを明らかにするだけでなく、最近作成されたヒトセントロメアのアセンブリを改善することも実証した。
インストール
#依存が多いので、ここではcondaで作成した仮想環境に導入する。
mamba create -n tandemtools -y
conda activate tandemtools
git clone https://github.com/ablab/TandemTools.git
cd TandemTools/
mamba install --file requirements.txt -y
#jellyfishも必要 bioconda(link)
mamba install -c bioconda -y kmer-jellyfish=2.3.1
$ ./tandemquast.py --help
Usage: tandemquast.py [OPTIONS] [ASSEMBLY_FNAMES]...
Options:
--nano PATH File with ONT reads
--pacbio PATH File with PacBio CLR reads
-o PATH Output folder [required]
-t INTEGER Threads
-m PATH Monomer sequence
-l TEXT Comma separated list of assembly labels
--hifi PATH File with PacBio HiFi reads
--only-polish Run polishing only
--no-nucl-align Do not perform nucleotide alignment (use with caution)
-f, --no-reuse Do not reuse old files
--help Show this message and exit.
テストラン
tandemquast.py --nano test_data/simulated_reads.fasta test_data/simulated_polished.fa -o simulated_res
- -o Output folder [required]
- -t Threads
- --nano File with ONT reads
出力例
*_alignment.bed - BEDフォーマットのTandemMapperアラインメント
*_alignment.sam - SAMフォーマットのTandemMapperアラインメント
*_kmer_stats.txt-異なるタイプのユニークなk-merの分布
*_units.txt - HOR(higher-order repeat)ユニットのリストファイル
*_vs_*.png - 2つのアセンブリのマッピングを比較したドットプロット
simulated-polished_coverage.png - リードカバレッジのプロット
simulated-polished_kmer_analysis.png - 異なるタイプのユニークなk-merのアセンブリーに沿った分布。各バーは長さ20kbのビン内の異なるタイプのk-merの数を示す。青いバーはシングルクランプk-merを表す。シングルクランプk-merの数が多いことは、アセンブリーのベースレベルの質が高いことを示唆している。オレンジ色(マルチクランプ)と緑色(ノークランプ)のバーは、その領域のベースレベルの品質が低いことを示唆している。(レポジトリより)
simulated-polished_bp_analysis.png - ブレークポイント比のプロット。このプロットの赤いピークは大規模なアセンブルエラーに対応する可能性がある(論文参照、レポジトリより)。
simulated-polished_selected_kmers,png
*_monomer_lengths.html-アセンブリに沿ったモノマー長分布を示すインタラクティブなHTML
その他
- tandemquastは数十万から数百万塩基のウルトラロングタンデムリピート向けに開発されている
引用
TandemTools: mapping long reads and assessing/improving assembly quality in extra-long tandem repeats
Alla Mikheenko, Andrey V Bzikadze, Alexey Gurevich, Karen H Miga, Pavel A Pevzner
Bioinformatics, Volume 36, Issue Supplement_1, July 2020, Pages i75–i83.
関連