2020 2/5 condaインストール追記
Scallopは、リファンレンスガイドのトランスクリプトのアセンブルツール。 マルチエキソンの転写物や低発現の転写物を組み立てる際の高い精度を特徴とする。ヒトRNA-seqサンプルでは、ScallopはStringTieおよびTransCombよりも34.5%および36.3%正確なマルチエキソン転写物を作り、低発現の転写物もそれぞれ67.5%および52.3%同定したと報告されている。2017年のNature Biotechnologyに掲載された。
podcastでの説明
the bioinformatics chat by Roman Cheplyaka on Apple Podcasts
インストール
依存
- htslib (zlibが必要)
Githubのリンクからmac向けのバイナリをダウンロードできる(10.10~10.12)。また主要なlinuxディストリビューション系のバイナリも用意されている。
#bioconda (link)
conda install -c bioconda -y scallop
> scallop
$ scallop
scallop scalpel-discovery scalpel-export
user-no-MacBook-Pro-2:mapping user$ scal
scallop scalpel-discovery scalpel-export
user-no-MacBook-Pro-2:mapping user$ scallop
Scallop v0.10.2 (c) 2017 Mingfu Shao, Carl Kingsford, and Carnegie Mellon University
Usage: scallop -i <bam-file> -o <gtf-file> [options]
Options:
--help print usage of Scallop and exit
--version print current version of Scallop and exit
--verbose <0, 1, 2> 0: quiet; 1: one line for each graph; 2: with details, default: 1
--library_type <first, second, unstranded> library type of the sample, default: unstranded
--min_transcript_coverage <float> minimum coverage required for a multi-exon transcript, default: 1.01
--min_single_exon_coverage <float> minimum coverage required for a single-exon transcript, default: 20
--min_transcript_length_increase <integer> default: 50
--min_transcript_length_base <integer> default: 250, minimum length of a transcript would be
--min_transcript_length_base + --min_transcript_length_increase * num-of-exons
--min_mapping_quality <integer> ignore reads with mapping quality less than this value, default: 1
--min_bundle_gap <integer> minimum distances required to start a new bundle, default: 50
--min_num_hits_in_bundle <integer> minimum number of reads required in a bundle, default: 20
--min_flank_length <integer> minimum match length in each side for a spliced read, default: 3
--min_splice_bundary_hits <integer> minimum number of spliced reads required for a junction, default: 1
___ ___ ___ ___ ___
/ /\ / /\ / /\ / /\ / /\
/ /:/_ / /:/ / /::\ / /::\ / /::\
/ /:/ /\ / /:/ / /:/\:\ ___ ___ ___ ___ / /:/\:\ / /:/\:\
/ /:/ /::\ / /:/ ___ / /:/~/::\ /__/\ / /\ /__/\ / /\ / /:/ \:\ / /:/~/:/
/__/:/ /:/\:\ /__/:/ / /\ /__/:/ /:/\:\ \ \:\ / /:/ \ \:\ / /:/ /__/:/ \__\:\ /__/:/ /:/
\ \:\/:/~/:/ \ \:\ / /:/ \ \:\/:/__\/ \ \:\ /:/ \ \:\ /:/ \ \:\ / /:/ \ \:\/:/
\ \::/ /:/ \ \:\ /:/ \ \::/ \ \:\/:/ \ \:\/:/ \ \:\ /:/ \ \::/
\__\/ /:/ \ \:\/:/ \ \:\ \ \::/ \ \::/ \ \:\/:/ \ \:\
/__/:/ \ \::/ \ \:\ \__\/ \__\/ \ \::/ \ \:\
\__\/ \__\/ \__\/ \__\/ \__\/
ラン
マッピングしたbamを指定してランする。
scallop -i input.bam -o output.gtf
idbaとTrinityとspadesのレポートがPDF形式で出力される。
bamはsortされている必要がある。(samtools sort input.bam > output_sorted.bam)
GithubにはsalmonとScallopを組み合わせてRNA seqの定量を行う例が載っています。確認してみてください。
引用
Accurate assembly of transcripts through phase-preserving graph decomposition.
Shao M, Kingsford C.
Nat Biotechnol. 2017 Dec;35(12):1167-1169. doi: 10.1038/nbt.4020. Epub 2017 Nov 13.
関連ツール