macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(small eukaryotes)ゲノムアセンブリがchromosome levelに達しているかどうかを評価する Tapestry

 

 ゲノムには、複製、転座、大きな逆位、倍数性変異などの複雑な機能が含まれている可能性があり、アセンブリアセンブリの検証が困難になる場合がある。John Daveyが開発したTapestryと呼ばれるツールを使用すると、小さく、ほぼ完全な真核生物ゲノム(50 Mb未満、100コンティグ未満)を視覚的に検証できる。タペストリーの入力は、ゲノムアセンブリ、fastqリード、およびテロメア配列である。これらの情報からアセンブリの要約統計とHTMLレポートを生成する。

 

London Calling 2019

John Davey - Tapestry: assessing small eukaryotic genome assemblies with long-reads

f:id:kazumaxneo:20200313220320p:plain

John DaveyはTapestryを使用するデモを行い、ジャンクコンティグを削除し、ハプロタイプコンティグを特定し、最終アセンブリfasta形式でエクスポートすることを示した。講演の締めくくりに、ナノポアシーケンスにより以前は見ることができなかったゲノムの新機能を発見できるようになったと述べた(London Calling 2019の資料より)。 

 

インストール

依存

Linux or macOS

  • Python 3.6 or later
  • minimap2
  • samtools
  • Python packages:
  • biopython
  • intervaltree
  • jinja2
  • networkx
  • numpy
  • pandas
  • plumbum
  • pysam
  • scikit-learn >= 0.20
  • sqlalchemy
  • tqdm

本体 Github

#bioconda (link)
conda create -n tapestry -y
conda activate tapestry
conda install -c bioconda -y tapestry

> weave

$ weave

usage: weave [-h] -a ASSEMBLY -r READS [-d DEPTH] [-l LENGTH]

             [-t TELOMERE [TELOMERE ...]] [-w WINDOWSIZE] [-n] [-o OUTPUT]

             [-c CORES] [-v]

 

weave: assess quality of one genome assembly

 

optional arguments:

  -h, --help            show this help message and exit

  -a ASSEMBLY, --assembly ASSEMBLY

                        filename of assembly in FASTA format (required)

  -r READS, --reads READS

                        filename of long reads in FASTQ format (required; must

                        be gzipped)

  -d DEPTH, --depth DEPTH

                        genome coverage to subsample from FASTQ file (default

                        50)

  -l LENGTH, --length LENGTH

                        minimum read length to retain when subsampling

                        (default 10000)

  -t TELOMERE [TELOMERE ...], --telomere TELOMERE [TELOMERE ...]

                        telomere sequence to search for

  -w WINDOWSIZE, --windowsize WINDOWSIZE

                        window size for ploidy calculations (default 10000)

  -n, --noreadoutput    do not output read alignments in report (default

                        False)

  -o OUTPUT, --output OUTPUT

                        directory to write output, default weave_output

  -c CORES, --cores CORES

                        number of parallel cores to use (default 1)

  -v, --version         report version number and exit

clean -h

$ clean -h

usage: clean [-h] -a ASSEMBLY -c CSV [-o OUTPUT]

 

clean: filter and order assembly from list of contigs

 

optional arguments:

  -h, --help            show this help message and exit

  -a ASSEMBLY, --assembly ASSEMBLY

                        filename of assembly in FASTA format

  -c CSV, --csv CSV     Tapestry CSV output

  -o OUTPUT, --output OUTPUT

                        filename of output contigs, default

                        filtered_assembly.fasta

 

 

実行方法

手順や結果の解釈については上の18分程度のプレゼンテーション動画で全て説明されています。わかりやすく説明しているので是非ご覧になって下さい。ここではコマンドの手順だけ記載します。

 

1、コンティグ、シーケンスリード、そしてテロメア配列を指定してアセンブリレポートを出力する。

weave -a assembly.fasta -r reads.fastq.gz -t TGATGA -o assembly -c 8

 ランが終わるとhtmlのレポートができる。動画の手順でフィルタリングし、右上のボタンからCSVファイルをダウンロードする。

f:id:kazumaxneo:20200311103009p:plain

contigの緑色の濃さは、リードカバレッジに基づいた各領域の倍数性の推定値を反映している。テロメアが見つかった場合、各コンティグ末端に赤い丸として表示される。赤色の円の不濃さは見つかったテロメアの数を反映している。

 

2、ダウンロードしたCSVとwaeveで使ったアセンブリFASTAファイルを指定、以下のコマンドを実行する。

clean -a assembly.fasta -c assembly_filtered.csv

選択した配列のみ含むアセンブリ配列のmulti-fastaが出力される。

 

出力の詳細はGithubで確認して下さい。詳しく説明されています。

引用

GitHub - johnomics/tapestry: Validate and edit small eukaryotic genome assemblies