2022/12/30 追記
ゲノムには、複製、転座、大きな逆位、倍数性変異などの複雑な機能が含まれている可能性があり、アセンブリやアセンブリの検証が困難になる場合がある。John Daveyが開発したTapestryと呼ばれるツールを使用すると、小さく、ほぼ完全な真核生物ゲノム(50 Mb未満、100コンティグ未満)を視覚的に検証できる。タペストリーの入力は、ゲノムアセンブリ、fastqリード、およびテロメア配列である。これらの情報からアセンブリの要約統計とHTMLレポートを生成する。
London Calling 2019
John Davey - Tapestry: assessing small eukaryotic genome assemblies with long-reads
John DaveyはTapestryを使用するデモを行い、ジャンクコンティグを削除し、ハプロタイプコンティグを特定し、最終アセンブリをfasta形式でエクスポートすることを示した。講演の締めくくりに、ナノポアシーケンスにより以前は見ることができなかったゲノムの新機能を発見できるようになったと述べた(London Calling 2019の資料より)。
インストール
依存
- Python 3.6 or later
- minimap2
- samtools
- Python packages:
- biopython
- intervaltree
- jinja2
- networkx
- numpy
- pandas
- plumbum
- pysam
- scikit-learn >= 0.20
- sqlalchemy
- tqdm
#bioconda (link)
mamba create -n tapestry -y
conda activate tapestry
mamba install -c conda-forge -c bioconda -y tapestry
> weave
$ weave
usage: weave [-h] -a ASSEMBLY -r READS [-d DEPTH] [-l LENGTH]
[-t TELOMERE [TELOMERE ...]] [-w WINDOWSIZE] [-n] [-o OUTPUT]
[-c CORES] [-v]
weave: assess quality of one genome assembly
optional arguments:
-h, --help show this help message and exit
-a ASSEMBLY, --assembly ASSEMBLY
filename of assembly in FASTA format (required)
-r READS, --reads READS
filename of long reads in FASTQ format (required; must
be gzipped)
-d DEPTH, --depth DEPTH
genome coverage to subsample from FASTQ file (default
50)
-l LENGTH, --length LENGTH
minimum read length to retain when subsampling
(default 10000)
-t TELOMERE [TELOMERE ...], --telomere TELOMERE [TELOMERE ...]
telomere sequence to search for
-w WINDOWSIZE, --windowsize WINDOWSIZE
window size for ploidy calculations (default 10000)
-n, --noreadoutput do not output read alignments in report (default
False)
-o OUTPUT, --output OUTPUT
directory to write output, default weave_output
-c CORES, --cores CORES
number of parallel cores to use (default 1)
-v, --version report version number and exit
> clean -h
$ clean -h
usage: clean [-h] -a ASSEMBLY -c CSV [-o OUTPUT]
clean: filter and order assembly from list of contigs
optional arguments:
-h, --help show this help message and exit
-a ASSEMBLY, --assembly ASSEMBLY
filename of assembly in FASTA format
-c CSV, --csv CSV Tapestry CSV output
-o OUTPUT, --output OUTPUT
filename of output contigs, default
filtered_assembly.fasta
実行方法
手順や結果の解釈については上の18分程度のプレゼンテーション動画で全て説明されています。わかりやすく説明しているので是非ご覧になって下さい。ここではコマンドの手順だけ記載します。
1、コンティグ、シーケンスリード、そしてテロメア配列を指定してアセンブリレポートを出力する。
weave -a assembly.fasta -r reads.fastq.gz -t TGATGA -o assembly -c 8
ランが終わるとhtmlのレポートができる。動画の手順でフィルタリングし、右上のボタンからCSVファイルをダウンロードする。
contigの緑色の濃さは、リードカバレッジに基づいた各領域の倍数性の推定値を反映している。テロメアが見つかった場合、各コンティグ末端に赤い丸として表示される。赤色の円の不濃さは見つかったテロメアの数を反映している。
2、ダウンロードしたCSVとwaeveで使ったアセンブリのFASTAファイルを指定、以下のコマンドを実行する。
clean -a assembly.fasta -c assembly_filtered.csv
選択した配列のみ含むアセンブリ配列のmulti-fastaが出力される。
出力の詳細はGithubで確認して下さい。詳しく説明されています。
引用
GitHub - johnomics/tapestry: Validate and edit small eukaryotic genome assemblies
Chromosomal assembly of the nuclear genome of the endosymbiont-bearing trypanosomatid Angomonas deanei
John W Davey, Carolina M C Catta-Preta, Sally James, Sarah Forrester, Maria Cristina M Motta, Peter D Ashton, Jeremy C Mottram
G3 Genes|Genomes|Genetics, Volume 11, Issue 1, January 2021, jkaa018