macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ターゲットアセンブリにより保存されたプラスミド配列を再構成してアノテーションをつける PlasmidID

 

 PlasmidIDはマッピングベースのアセンブリアシストプラスミド同定ツールで、プラスミド同定のための解析とグラフィックソリューションを提供する。

 PlasmidIDは、プラスミドデータベースの配列上にイルミナリードをマッピングするBASHで実装された計算パイプラインである。k-merフィルタリングされ、最もカバーされた配列は、重複を避けるために同一性によってクラスタリングされ、最も長い配列はプラスミド再構成のための足場として使用される。リードはアセンブルされ、自動アノテーションと特異的アノテーションによってアノテーションされる。マッピングアセンブリアノテーション、ローカルアラインメント解析から得られたすべての情報が収集され、環状画像で正確に表現されるため、ユーザーはあらゆる細菌サンプルのプラスミド組成を決定することができる。

 

wiki

https://github.com/BU-ISCIII/plasmidID/wiki

twitter

https://twitter.com/search?q=PlasmidID&src=typed_query

 

インストール

ubuntu18.04にてcondaの仮想環境を作ってテストした(テスト時はmacosでは動作しなかった)。

依存

  • Python >=3.6
  • Trimmomatic v0.33(Optional)
  • Spades v3.8 (Optional)
  • Perl v5.26.0
  • NCBI_blast + v2.2.3
  • Bedtools v2.25
  • Bowtie 2 v2.2.4
  • SAMtools v1.2
  • prokka v1.12
  • cd-hit v4.6.6 (no longer needed since v1.6)
  • circos v0.69.3
  • mash v2.2

本体 Github

#bioconda(link) ここでは仮想環境に入れる
conda create -n plasmidid -y
conda activate plasmidid
conda install -c conda-forge -c bioconda plasmidid -y

#docker images(link)
docker pull buisciii/plasmidid

> plasmidID -h

$ plasmidID -h

 

plasmidID is a computational pipeline tha reconstruct and annotate the most likely plasmids present in one sample

 

usage : /home/kazu/anaconda3/envs/plasmidid/bin/plasmidID <-1 R1> <-2 R2> <-d database(fasta)> <-s sample_name> [-g group_name] [options]

 

Mandatory input data:

-1 | --R1 <filename> reads corresponding to paired-end R1 (mandatory)

-2 | --R2 <filename> reads corresponding to paired-end R2 (mandatory)

-d | --database <filename> database to map and reconstruct (mandatory)

-s | --sample <string> sample name (mandatory), less than 37 characters

 

Optional input data:

-g | --group <string> group name (optional). If unset, samples will be gathered in NO_GROUP group

-c | --contigs <filename> file with contigs. If supplied, plasmidID will not assembly reads

-a | --annotate <filename> file with configuration file for specific annotation

-o <output_dir> output directory, by default is the current directory

 

Pipeline options:

--explore Relaxes default parameters to find less reliable relationships within data supplied and database

--only-reconstruct Database supplied will not be filtered and all sequences will be used as scaffold

This option does not require R1 and R2, instead a contig file can be supplied

-w Undo winner takes it all algorithm when clustering by kmer - QUICKER MODE

Trimming:

--trimmomatic-directory Indicate directory holding trimmomatic .jar executable

--no-trim Reads supplied will not be quality trimmed

 

Coverage and Clustering:

-C | --coverage-cutoff <int> minimun coverage percentage to select a plasmid as scafold (0-100), default 80

-S | --coverage-summary <int> minimun coverage percentage to include plasmids in summary image (0-100), default 90

-f | --cluster <int> kmer identity to cluster plasmids into the same representative sequence (0 means identical) (0-1), default 0.5

-k | --kmer <int> identity to filter plasmids from the database with kmer approach (0-1), default 0.95

 

Contig local alignment

-i | --alignment-identity <int> minimun identity percentage aligned for a contig to annotate, default 90

-l | --alignment-percentage <int> minimun length percentage aligned for a contig to annotate, default 20

-L | --length-total <int> minimun alignment length to filter blast analysis

--extend-annotation <int> look for annotation over regions with no homology found (base pairs), default 500bp

 

Draw images:

--config-directory <dir> directory holding config files, default config_files/

--config-file-individual <file-name> file name of the individual file used to reconstruct

Additional options:

 

-M | --memory <int> max memory allowed to use

-T | --threads <int> number of threads

-v | --version version

-h | --help display usage message

 

example: ./plasmidID.sh -1 ecoli_R1.fastq.gz -2 ecoli_R2.fastq.gz -d database.fasta -s ECO_553 -G ENTERO

./plasmidID.sh -1 ecoli_R1.fastq.gz -2 ecoli_R2.fastq.gz -d PacBio_sample.fasta -c scaffolds.fasta -C 60 -s ECO_60 -G ENTERO --no-trim

 

 

データベース

(デモ)データセットとして、plasmidFinderのプラスミド配列群が用意されている。

git clone https://github.com/BU-ISCIII/plasmidID.git

f:id:kazumaxneo:20200630121319p:plain

 

 

 

ペアエンドfastq、足場にするプラスミド配列を指定する。アセンブルして得たcontig配列も指定すれば"-c contog.fasta"、Spadesによるアセンブルステップはスキップされる。

plasmidID -1 SAMPLE_R1.fastq.gz -2 SAMPLE_R2.fastq.gz \
-d plasmids.fasta --no-trim -s sample -T 16
  • -1   reads corresponding to paired-end R1 (mandatory)
  • -2   reads corresponding to paired-end R2 (mandatory)
  • -d   database to map and reconstruct (mandatory)
  • -s   sample name (mandatory), less than 37 characters
  • --no-trim    Reads supplied will not be quality trimmed
  • -T    number of threads
  • -c    file with contigs. If supplied, plasmidID will not assembly reads

 

output-dir_final_results.tab

f:id:kazumaxneo:20200630133828p:plain

 

f:id:kazumaxneo:20200701140648p:plain

拡大

f:id:kazumaxneo:20200701140739p:plain


適切にクラスタリングされていないプラスミドを判断し最も適切なものだけを選択するために、同じコンティグ間のリンクを表現したサマリー画像が出力される(例えば2つの異なるプラスミド中に同じコンティグが存在する場合など)。ユーザーは、分析されたサンプルに存在する異なるプラスミドの数を最終的に手動で決定する。ユーザーが決定しなければならないが、PlasmidIDとこのガイドで提供されるすべての情報があれば、このタスクは簡単になるはずである。

 

出力について

https://github.com/BU-ISCIII/plasmidID/wiki/Understanding-the-image:-track-by-track

引用

GitHub - BU-ISCIII/plasmidID: PlasmidID is a mapping-based, assembly-assisted plasmid identification tool that analyzes and gives graphic solution for plasmid identification.

 

関連