macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

スモールゲノムのアセンブリ精度を評価する assembly_accuracy

 

assembly_accuracyはminimap2を使ってアセンブリの精度を評価するツール。相同な配列によって学習したモデルを使って、Nanoporeのシステマティックなエラーを他のニューラルネットワークのツールより高い精度で修正するHomopolishの論文で、アセンブリエラーのチェックに使用されている。

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02282-6

 

インストール

mamba create -n fastmer python=3.8 -y
conda create fastmer
mamba install -c bioconda numpy pysam minimap2
pip install PyVCF

git clone https://github.com/jts/assembly_accuracy.git
cd assembly_accuracy/

python fastmer.py -h

$ python fastmer.py -h

usage: fastmer.py [-h] --reference REFERENCE --assembly ASSEMBLY [--variants VARIANTS] [--min-mapping-quality MIN_MAPPING_QUALITY] [--min-alignment-length MIN_ALIGNMENT_LENGTH]

                  [--min-hp-length MIN_HP_LENGTH] [--max-hp-length MAX_HP_LENGTH] [--print-alignment] [--print-identity-per-segment] [--write-edits WRITE_EDITS]

 

Calculate the accuracy of a genome assembly by comparing to a reference

 

optional arguments:

  -h, --help            show this help message and exit

  --reference REFERENCE

  --assembly ASSEMBLY

  --variants VARIANTS

  --min-mapping-quality MIN_MAPPING_QUALITY

  --min-alignment-length MIN_ALIGNMENT_LENGTH

  --min-hp-length MIN_HP_LENGTH

  --max-hp-length MAX_HP_LENGTH

  --print-alignment

  --print-identity-per-segment

  --write-edits WRITE_EDITS

 

 

実行方法

リファレンスとアセンブリ配列を指定する。

fastmer.py --reference reference.fasta --assembly assembly.fasta --min-mapping-quality 10

 

引用

Simpson J. Fastmer. 2018. GitHub - jts/assembly_accuracy: tools for assessing the accuracy of genome assemblies