（small eukaryotes）ゲノムアセンブリがchromosome levelに達しているかどうかを評価する Tapestry

2022/12/30 追記

ゲノムには、複製、転座、大きな逆位、倍数性変異などの複雑な機能が含まれている可能性があり、アセンブリやアセンブリの検証が困難になる場合がある。John Daveyが開発したTapestryと呼ばれるツールを使用すると、小さく、ほぼ完全な真核生物ゲノム（50 Mb未満、100コンティグ未満）を視覚的に検証できる。タペストリーの入力は、ゲノムアセンブリ、fastqリード、およびテロメア配列である。これらの情報からアセンブリの要約統計とHTMLレポートを生成する。

London Calling 2019

John Davey - Tapestry: assessing small eukaryotic genome assemblies with long-reads

John DaveyはTapestryを使用するデモを行い、ジャンクコンティグを削除し、ハプロタイプコンティグを特定し、最終アセンブリをfasta形式でエクスポートすることを示した。講演の締めくくりに、ナノポアシーケンスにより以前は見ることができなかったゲノムの新機能を発見できるようになったと述べた（London Calling 2019の資料より）。

インストール

依存

Linux or macOS

Python 3.6 or later
minimap2
samtools
Python packages:
biopython
intervaltree
jinja2
networkx
numpy
pandas
plumbum
pysam
scikit-learn >= 0.20
sqlalchemy
tqdm

本体　Github

#bioconda (link)
mamba create -n tapestry -y 
conda activate tapestry 
mamba install -c conda-forge -c bioconda -y tapestry

> weave

$ weave

usage: weave [-h] -a ASSEMBLY -r READS [-d DEPTH] [-l LENGTH]

[-t TELOMERE [TELOMERE ...]] [-w WINDOWSIZE] [-n] [-o OUTPUT]

[-c CORES] [-v]

weave: assess quality of one genome assembly

optional arguments:

-h, --help show this help message and exit

-a ASSEMBLY, --assembly ASSEMBLY

filename of assembly in FASTA format (required)

-r READS, --reads READS

filename of long reads in FASTQ format (required; must

be gzipped)

-d DEPTH, --depth DEPTH

genome coverage to subsample from FASTQ file (default

50)

-l LENGTH, --length LENGTH

minimum read length to retain when subsampling

(default 10000)

-t TELOMERE [TELOMERE ...], --telomere TELOMERE [TELOMERE ...]

telomere sequence to search for

-w WINDOWSIZE, --windowsize WINDOWSIZE

window size for ploidy calculations (default 10000)

-n, --noreadoutput do not output read alignments in report (default

False)

-o OUTPUT, --output OUTPUT

directory to write output, default weave_output

-c CORES, --cores CORES

number of parallel cores to use (default 1)

-v, --version report version number and exit

> clean -h

$ clean -h

usage: clean [-h] -a ASSEMBLY -c CSV [-o OUTPUT]

clean: filter and order assembly from list of contigs

optional arguments:

-h, --help show this help message and exit

-a ASSEMBLY, --assembly ASSEMBLY

filename of assembly in FASTA format

-c CSV, --csv CSV Tapestry CSV output

-o OUTPUT, --output OUTPUT

filename of output contigs, default

filtered_assembly.fasta

実行方法

手順や結果の解釈については上の18分程度のプレゼンテーション動画で全て説明されています。わかりやすく説明しているので是非ご覧になって下さい。ここではコマンドの手順だけ記載します。

１、コンティグ、ONTのシークエンシングリード、そしてテロメア配列を指定してアセンブリレポートを出力する。

weave -a assembly.fasta -r reads.fastq.gz -t TGATGA -o assembly -c 8

ランが終わるとhtmlのレポートができる。動画の手順でフィルタリングし、右上のボタンからCSVファイルをダウンロードする。

f:id:kazumaxneo:20200311103009p:plain

contigの緑色の濃さは、リードカバレッジに基づいた各領域の倍数性の推定値を反映している。テロメアが見つかった場合、各コンティグ末端に赤い丸として表示される。赤色の円の不濃さは見つかったテロメアの数を反映している。

２、ダウンロードしたCSVとwaeveで使ったアセンブリのFASTAファイルを指定、以下のコマンドを実行する。

clean -a assembly.fasta -c assembly_filtered.csv

選択した配列のみ含むアセンブリ配列のmulti-fastaが出力される。

出力の詳細はGithubで確認して下さい。詳しく説明されています。

引用

GitHub - johnomics/tapestry: Validate and edit small eukaryotic genome assemblies

Chromosomal assembly of the nuclear genome of the endosymbiont-bearing trypanosomatid Angomonas deanei
John W Davey, Carolina M C Catta-Preta, Sally James, Sarah Forrester, Maria Cristina M Motta, Peter D Ashton, Jeremy C Mottram
G3 Genes|Genomes|Genetics, Volume 11, Issue 1, January 2021, jkaa018