macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムアセンブリのエクストラロングタンデムリピート(ETR)を評価する TandemTools

 

 Extra-longタンデムリピート(ETR)は真核生物のゲノムに広く存在し、染色体分離などの基本的な細胞内プロセスに重要な役割を果たしている。新しいロングリード技術によってETRのアセンブリが可能になったが、その品質を評価するツールがないため、アセンブリの精度を評価することは困難である。さらに、エラーが起こりやすいリードのETRへのマッピングは依然として未解決の問題であるため、ETRアセンブリのドラフトをどのように研磨すればよいのかも明らかではない。
これらの問題に対処するため、本著者らは、リードをETRにマッピングするためのTandemMapperツールと、ETRアセンブリを研磨し、その品質を評価するためのTandemQUASTツールを含むTandemToolsソフトウェアを開発した。TandemToolsはETRアセンブリのエラーを明らかにするだけでなく、最近作成されたヒトセントロメアアセンブリを改善することも実証した。

 

インストール

Github

#依存が多いので、ここではcondaで作成した仮想環境に導入する。
mamba create -n tandemtools -y
conda activate tandemtools
git clone https://github.com/ablab/TandemTools.git
cd TandemTools/
mamba install --file requirements.txt -y

#jellyfishも必要 bioconda(link)
mamba install -c bioconda -y kmer-jellyfish=2.3.1

$ ./tandemquast.py --help

Usage: tandemquast.py [OPTIONS] [ASSEMBLY_FNAMES]...

 

Options:

  --nano PATH      File with ONT reads

  --pacbio PATH    File with PacBio CLR reads

  -o PATH          Output folder  [required]

  -t INTEGER       Threads

  -m PATH          Monomer sequence

  -l TEXT          Comma separated list of assembly labels

  --hifi PATH      File with PacBio HiFi reads

  --only-polish    Run polishing only

  --no-nucl-align  Do not perform nucleotide alignment (use with caution)

  -f, --no-reuse   Do not reuse old files

  --help           Show this message and exit.

 

 

テストラン

tandemquast.py --nano test_data/simulated_reads.fasta test_data/simulated_polished.fa -o simulated_res
  • -o    Output folder  [required]
  • -t     Threads 
  • --nano   File with ONT reads

 

出力例

*_alignment.bed - BEDフォーマットのTandemMapperアラインメント

*_alignment.sam - SAMフォーマットのTandemMapperアラインメント

*_kmer_stats.txt-異なるタイプのユニークなk-merの分布

*_units.txt - HOR(higher-order repeat)ユニットのリストファイル

*_vs_*.png - 2つのアセンブリマッピングを比較したドットプロット

 

simulated-polished_coverage.png - リードカバレッジのプロット

 

simulated-polished_kmer_analysis.png - 異なるタイプのユニークなk-merのアセンブリーに沿った分布。各バーは長さ20kbのビン内の異なるタイプのk-merの数を示す。青いバーはシングルクランプk-merを表す。シングルクランプk-merの数が多いことは、アセンブリーのベースレベルの質が高いことを示唆している。オレンジ色(マルチクランプ)と緑色(ノークランプ)のバーは、その領域のベースレベルの品質が低いことを示唆している。(レポジトリより)

 

simulated-polished_bp_analysis.png - ブレークポイント比のプロット。このプロットの赤いピークは大規模なアセンブルエラーに対応する可能性がある(論文参照、レポジトリより)。

 

simulated-polished_selected_kmers,png

 

*_monomer_lengths.html-アセンブリに沿ったモノマー長分布を示すインタラクティブなHTML

 

その他

  • tandemquastは数十万から数百万塩基のウルトラロングタンデムリピート向けに開発されている

引用

TandemTools: mapping long reads and assessing/improving assembly quality in extra-long tandem repeats 

Alla Mikheenko, Andrey V Bzikadze, Alexey Gurevich, Karen H Miga, Pavel A Pevzner

Bioinformatics, Volume 36, Issue Supplement_1, July 2020, Pages i75–i83.

 

関連