ゲノムガイドのRNAのアセンブル法は、遺伝子アノテーション情報を使わず、RNA-Seqデータから転写物の再構成を行う方法である。
Strawberryは ゲノムガイドのアセンブリと定量の2つのモジュールで構成されており、ゲノムガイドのアセンブルではbamをスプライシンググラフにして解析し、最も可能性の高い転写物を選択する。 定量化モジュールは、スプライシンググラフのノードからの読み取りカウントを転写物に割り当て、転写物量を推定し、EMアルゴリズムによりバイアスを補正する。シミュレートされたデータとリアルデータの両方を使用して検証されており、Strawberryは アセンブリと定量化の両方のいずれもCUfflinksとStringTieを上る。動作は高速で、1000万リードのゲノムガイドアセンブルが2分程度で終わるとされる(2スレッド使用時)。
インストール
cent OSに導入した。
https://github.com/ruolin/strawberry
git clone --recursive https://github.com/ruolin/Strawberry.git
cd Strawberry/
sh cmake.sh
cd build
make
cd ../bin/
./strawberry #テスト
$ ./strawberry
strawberry v0.9.1
--------------------------------------
Usage: strawberry [options] <input.bam>
General Options:
-o/--output-dir Output files directory. [default: ./strawberry_out ]
-g/--GTF Reference transcripts annotation file. Current support gff3 and gtf format. [default: NULL]
-r/--no-assembly Skip assembly and use reference annotation to quantify transcript abundance (only use with -g) [default: false]
--no-quant Skip quantification [default: false]
-p/--num-threads number of threads used for Strawberry [default: 1]
-v/--verbose Strawberry starts to gives more information. [default: false]
-q/--min-mapping-qual Minimum mapping quality to be included in the analyses. [default: 0]
-J/--max-junction-splice-size Maximum spliced junction. [default: 300000]
-j/--min-junction-splice-size Minimum spliced junction size. [default: 50]
-m/--min-isoform-frac Minimum isoform fraction. [default: 0.01]
--allow-multimapped-hits By default, Strawberry only use reads which map to unique position in the genome. [default: false]
Assembly Options:
-t/--min-transcript-size Minimun transcript size to be assembled. [default: 200]
-d/--max-overlap-distance Maximum distance between read clusters to be merged. [default: 30]
-s/--min-anchor-size Read overhang less than this value is subject to Binomial test. [default: 10]
-a/--small-anchor-alpha Threshold alpha for junction binomial test filter. [default: 0]
--min-support-4-intron Minimum number of spliced aligned read required to support a intron. [default: 2.0]
--min-exon-cov Minimum exon coverage. [default: 1.0]
-c/-combine-short-transfrag merging non-overlap short transfrags. [default: false]
--min-depth-4-transcript Minimum average read depth for transcript. [default: 1.0]
Quantification Options:
-f/--fragment-context Print fragment context for differential expression to this file. [default: Disabled]
-i/--insert-size-mean-and-sd User specified insert size mean and standard deviation, format: mean/sd, e.g., 300/25. [default: Disabled]
This will disable empirical insert distribution learning. [default: NULL]
-b/--bias-correction Specify reference genome for bias correction. [default: NULL]
-e/--filter-low-expression Skip isoforms whose relative expression (within locus) are less than this number. [default: 0.]
パスを通しておく。
ラン
解析前にゲノムにリードをアライメントして、bamを作っておく。
--テストラン--
strawberry examples/geuvadis_300/sample_01.sorted.bam -o output_dir -p 8
- -o Output files directory. [default: ./strawberry_out ]
- -p number of threads used for Strawberry [default: 1]
既存のアノテーションファイルを使い定量を行う。新規isoformも検出する。
strawberry examples/geuvadis_300/sample_01.sorted.bam -o output_dir -g reference.gtf -p 8
-rをつけると、ゲノムガイドアセンブルはスキップされ、新規isoform探索は一切行われません。定量だけ行うときに使うフラグです。
引用
Strawberry: Fast and accurate genome-guided transcript reconstruction and quantification from RNA-Seq.
PLoS Comput Biol. 2017 Nov 27;13(11):e1005851.
Liu R, Dickerson J.