macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

リファンレンスガイドのトランスクリプトのアセンブル strawberry

 

 ゲノムガイドのRNAアセンブル法は、遺伝子アノテーション情報を使わず、RNA-Seqデータから転写物の再構成を行う方法である。

 Strawberryは ゲノムガイドのアセンブリ定量の2つのモジュールで構成されており、ゲノムガイドのアセンブルではbamをスプライシンググラフにして解析し、最も可能性の高い転写物を選択する。 定量化モジュールは、スプライシンググラフのノードからの読み取りカウントを転写物に割り当て、転写物量を推定し、EMアルゴリズムによりバイアスを補正する。シミュレートされたデータとリアルデータの両方を使用して検証されており、Strawberryは アセンブリ定量化の両方のいずれもCUfflinksとStringTieを上る。動作は高速で、1000万リードのゲノムガイドアセンブルが2分程度で終わるとされる(2スレッド使用時)。

 

 

インストール

cent OSに導入した。

 

Github

https://github.com/ruolin/strawberry

git clone --recursive https://github.com/ruolin/Strawberry.git 
cd Strawberry/
sh cmake.sh
cd build
make

cd ../bin/
./strawberry #テスト

$ ./strawberry 

 

strawberry v0.9.1

--------------------------------------

Usage: strawberry [options] <input.bam> 

General Options:

   -o/--output-dir                       Output files directory.                                                                              [default:     ./strawberry_out ]

   -g/--GTF                              Reference transcripts annotation file. Current support gff3 and gtf format.                          [default:     NULL]

   -r/--no-assembly                      Skip assembly and use reference annotation to quantify transcript abundance (only use with -g)       [default:     false]

   --no-quant                            Skip quantification                                                                                  [default:     false]

   -p/--num-threads                      number of threads used for Strawberry                                                                [default:     1]

   -v/--verbose                          Strawberry starts to gives more information.                                                         [default:     false]

   -q/--min-mapping-qual                 Minimum mapping quality to be included in the analyses.                                              [default:     0]

   -J/--max-junction-splice-size         Maximum spliced junction.                                                                            [default:     300000]

   -j/--min-junction-splice-size         Minimum spliced junction size.                                                                       [default:     50]

   -m/--min-isoform-frac                 Minimum isoform fraction.                                                                            [default:     0.01]

   --allow-multimapped-hits              By default, Strawberry only use reads which map to unique position in the genome.                    [default:     false]

 

 Assembly Options:

   -t/--min-transcript-size              Minimun transcript size to be assembled.                                                             [default:     200]

   -d/--max-overlap-distance             Maximum distance between read clusters to be merged.                                                 [default:     30]

   -s/--min-anchor-size                  Read overhang less than this value is subject to Binomial test.                                      [default:     10]

   -a/--small-anchor-alpha               Threshold alpha for junction binomial test filter.                                                   [default:     0]

   --min-support-4-intron                Minimum number of spliced aligned read required to support a intron.                                 [default:     2.0] 

   --min-exon-cov                        Minimum exon coverage.                                                                               [default:     1.0] 

   -c/-combine-short-transfrag           merging non-overlap short transfrags.                                                                [default:     false]

   --min-depth-4-transcript              Minimum average read depth for transcript.                                                           [default:     1.0]

 

 Quantification Options:

   -f/--fragment-context                 Print fragment context for differential expression to this file.                                     [default:     Disabled]

   -i/--insert-size-mean-and-sd          User specified insert size mean and standard deviation, format: mean/sd, e.g., 300/25.               [default:     Disabled]

                                         This will disable empirical insert distribution learning.                                            [default:     NULL]

   -b/--bias-correction                  Specify reference genome for bias correction.                                                        [default:     NULL]

   -e/--filter-low-expression            Skip isoforms whose relative expression (within locus) are less than this number.                    [default:     0.]

パスを通しておく。

 

ラン

解析前にゲノムにリードをアライメントして、bamを作っておく。

 

--テストラン--

ゲノムガイドアセンブリ定量の両方を行う。

strawberry examples/geuvadis_300/sample_01.sorted.bam -o output_dir -p 8
  • -o Output files directory. [default: ./strawberry_out ]
  • -p number of threads used for Strawberry [default: 1]

 

既存のアノテーションファイルを使い定量を行う。新規isoformも検出する。

strawberry examples/geuvadis_300/sample_01.sorted.bam -o output_dir -g reference.gtf -p 8

 

-rをつけると、ゲノムガイドアセンブルはスキップされ、新規isoform探索は一切行われません。定量だけ行うときに使うフラグです。

 

引用

Strawberry: Fast and accurate genome-guided transcript reconstruction and quantification from RNA-Seq.

PLoS Comput Biol. 2017 Nov 27;13(11):e1005851.

Liu R, Dickerson J.