macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リファンレンスガイドのトランスクリプトのアセンブリツール Scallop

 2020 2/5 condaインストール追記

 

Scallopは、リファンレンスガイドのトランスクリプトアセンブルツール。 マルチエキソンの転写物や低発現の転写物を組み立てる際の高い精度を特徴とする。ヒトRNA-seqサンプルでは、ScallopはStringTieおよびTransCombよりも34.5%および36.3%正確なマルチエキソン転写物を作り、低発現の転写物もそれぞれ67.5%および52.3%同定したと報告されている。2017年のNature Biotechnologyに掲載された。

 

podcastでの説明

the bioinformatics chat by Roman Cheplyaka on Apple Podcasts

 

インストール

依存

  • htslib (zlibが必要)

Githubのリンクからmac向けのバイナリをダウンロードできる(10.10~10.12)。また主要なlinuxディストリビューション系のバイナリも用意されている。

Github 

#bioconda (link)
conda install -c bioconda -y scallop

> scallop

scallop

scallop            scalpel-discovery  scalpel-export     

user-no-MacBook-Pro-2:mapping user$ scal

scallop            scalpel-discovery  scalpel-export     

user-no-MacBook-Pro-2:mapping user$ scallop 

Scallop v0.10.2 (c) 2017 Mingfu Shao, Carl Kingsford, and Carnegie Mellon University

 

Usage: scallop -i <bam-file> -o <gtf-file> [options]

 

Options:

 --help                                      print usage of Scallop and exit

 --version                                   print current version of Scallop and exit

 --verbose <0, 1, 2>                         0: quiet; 1: one line for each graph; 2: with details, default: 1

 --library_type <first, second, unstranded>  library type of the sample, default: unstranded

 --min_transcript_coverage <float>           minimum coverage required for a multi-exon transcript, default: 1.01

 --min_single_exon_coverage <float>          minimum coverage required for a single-exon transcript, default: 20

 --min_transcript_length_increase <integer>  default: 50

 --min_transcript_length_base <integer>      default: 250, minimum length of a transcript would be

                                             --min_transcript_length_base + --min_transcript_length_increase * num-of-exons

 --min_mapping_quality <integer>             ignore reads with mapping quality less than this value, default: 1

 --min_bundle_gap <integer>                  minimum distances required to start a new bundle, default: 50

 --min_num_hits_in_bundle <integer>          minimum number of reads required in a bundle, default: 20

 --min_flank_length <integer>                minimum match length in each side for a spliced read, default: 3

 --min_splice_bundary_hits <integer>         minimum number of spliced reads required for a junction, default: 1

 

      ___           ___           ___                                       ___           ___    

     /  /\         /  /\         /  /\                                     /  /\         /  /\   

    /  /:/_       /  /:/        /  /::\                                   /  /::\       /  /::\  

   /  /:/ /\     /  /:/        /  /:/\:\    ___     ___   ___     ___    /  /:/\:\     /  /:/\:\ 

  /  /:/ /::\   /  /:/  ___   /  /:/~/::\  /__/\   /  /\ /__/\   /  /\  /  /:/  \:\   /  /:/~/:/ 

 /__/:/ /:/\:\ /__/:/  /  /\ /__/:/ /:/\:\ \  \:\ /  /:/ \  \:\ /  /:/ /__/:/ \__\:\ /__/:/ /:/  

 \  \:\/:/~/:/ \  \:\ /  /:/ \  \:\/:/__\/  \  \:\  /:/   \  \:\  /:/  \  \:\ /  /:/ \  \:\/:/   

  \  \::/ /:/   \  \:\  /:/   \  \::/        \  \:\/:/     \  \:\/:/    \  \:\  /:/   \  \::/    

   \__\/ /:/     \  \:\/:/     \  \:\         \  \::/       \  \::/      \  \:\/:/     \  \:\    

     /__/:/       \  \::/       \  \:\         \__\/         \__\/        \  \::/       \  \:\   

     \__\/         \__\/         \__\/                                     \__\/         \__\/ 

 

 

 

ラン

マッピングしたbamを指定してランする。

scallop -i input.bam -o output.gtf 

idbaとTrinityとspadesのレポートがPDF形式で出力される。

bamはsortされている必要がある。(samtools sort input.bam > output_sorted.bam)

 

GithubにはsalmonとScallopを組み合わせてRNA seqの定量を行う例が載っています。確認してみてください。

 

引用

Accurate assembly of transcripts through phase-preserving graph decomposition.

Shao M, Kingsford C.

Nat Biotechnol. 2017 Dec;35(12):1167-1169. doi: 10.1038/nbt.4020. Epub 2017 Nov 13.

 

関連ツール