macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

リファレンスを使わないRNA seqのアセンブル評価ツール RSEM-EVAL

 

contigの豊富さや、N50のような測定法は、アセンブルの精度を反映していない点が問題となる。RSEM-EVALは、アセンブリのコンパクトさやRNA-Seqのシーケンスデータからアセンブリの質を調べるなどして、複数の要因から単一の評価スコアを算出する方法論。データによって最適なアセンブラが異なることが多いが、このツールは、そのトランスクリプトームのアセンブルに最適なツールを選ぶために使える。

 

インストール

公式サイトからダウンロードする。

DETONATE: DE novo TranscriptOme rNa-seq Assembly with or without the Truth Evaluation

解凍してビルド。

cd detonate-1.11/rsem-eval
make

 

ラン

1、初めに近縁なモデル生物のtranscripts.fastaの長さを出力する。

cd detonate-1.11/rsem-eval/
./rsem-eval-estimate-transcript-length-distribution transcripts.fa parameter_file

 parameter_fileが出力される。

 

2、アセンブルしたFASTAとそれに使ったfastqを指定して RSEM-EVALスコアを計算する。

Paired-end

./rsem-eval-calculate-score -p 8 --transcript-length-parameters parameter_file --paired-end pair1.fq pair2.fq assembly.fasta L

 L For single-end data, L represents the average read length. For paired-end data, L represents the average fragment length. It should be a positive integer (real value will be rounded to the nearest integer).

 

Single-end

./rsem-eval-calculate-score -p 8 --transcript-length-parameters parameter_file single.fq assembly.fasta L

 

 解析が終わるといくつかファイルができるが、~socreが評価ファイルである。下はテストデータを使った時の~socreファイル出力。

$ cat detonate-1.11/rsem-eval/toy_assembly_1.score 

Score -87426.14

BIC_penalty -8.25

Prior_score_on_contig_lengths_(f_function_canceled) -7.91

Prior_score_on_contig_sequences -867.82

Data_likelihood_in_log_space_without_correction -86542.17

Correction_term_(f_function_canceled) -0.00

Number_of_contigs 1

Expected_number_of_aligned_reads_given_the_data 3812.00

Number_of_contigs_smaller_than_expected_read/fragment_length 0

Number_of_contigs_with_no_read_aligned_to 0

Maximum_data_likelihood_in_log_space -86541.97

Number_of_alignable_reads 3812

Number_of_alignments_in_total 3812

1行目はスコア。負の値であるが、大きい方が優れている(-20万より-8万がより良い)

スコアが続き、7行目の Number_of_contigはアセンブリに含まれるコンティグの数。

8行目のNumber_of_contigs_smaller_than_expected_read/fragment_lengthは、長さが期待されるフラグメント長よりも短いコンティグの数。Number_of_alignable_readsは少なくとも1つのアラインメントが検出されたリードの数(テストデータなので3800少ししかない)で、Number_of_alignments_in_totalがその総数。

 

計算の詳細は論文と公式ページで確認してください。

 

引用

Evaluation of de novo transcriptome assemblies from RNA-Seq data

Bo Li, Nathanael Fillmore, Yongsheng Bai, Mike Collins, James A Thomson, Ron Stewart and Colin N Dewey

Received: 6 July 2014Accepted: 30 October 2014Published: 21 December 2014