macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

全工程が自動化された高速なRNA seq解析webサービス RaNA-Seq(60以上のモデル生物に対応)

2020 4/10 タイトル修正、説明と図追加

 

RaNA-Seqは、RNA-Seqデータを迅速に解析・可視化するためのクラウドプラットフォームである。FASTQファイルの定量、品質管理指標の計算、発現変動遺伝子の解析の実行、機能解析による結果の説明を可能にすることで、数分で完全な解析を実行する。本解析パイプラインは、一般的に受け入れられている再現性の高いプロトコルを適用しており、Webインターフェースは2つの簡単なステップで適用することができる。解析結果は、解釈と公開の準備ができているインタラクティブなグラフィックスとレポートとして表示される。RaNA-Seq ウェブサービスhttps://ranaseq.eu で自由に利用できる。

 我々(著者ら)は、完全かつ信頼性の高いRNA-Seq解析を行うための最適化された計算パイプラインを設計した。論文図1に我々のパイプラインのフローチャートを示す。FASTQファイルはFastpツール(Chen et al., 2018)で前処理され、Salmon(Patro et al., 2017)で発現定量化が行われる。定量化に基づいて、RaNA-Seqはインタラクティブなグラフを含む品質管理レポートを生成する。これらのグラフは、パッケージRJSplot(BarriosおよびPrieto、2018)を用いて生成され、グラフ間の距離はSERE(Schulzeら、2012)を用いて計算される。発現変動遺伝子の解析は、DESeq2、EdgeRおよびlimma(Law et al、2014; Love et al、2014; Robinson et al、2010)を用いて行うことができ、結果として得られたデータは、インタラクティブなレポートとしてD3で表現される。
 これに加えて、本パイプラインでは、各発現変動結果に対して、over-representation analysis と gene set enrichment analysis (GSEA)を行う。エンリッチメント解析は、RパッケージGOseq(Young et al., 2010)を用いて実行される。この方法は、発現変動結果に含まれる長い転写物や高発現の転写物が過剰に検出されることによる、RNA-Seqデータの結果の偏りを回避するものである。GSEAについては、fgsea Rパッケージを統合した(Sergushichev, 2016)。これは、 cumulative statistical calculationsを用いて、事前にランク付けされたGSEAを高速実行する。機能アノテーションデータベースについては、NCBI BioSystemsデータベース(Geer et al., 2009)からGene Ontologyとパスウェイアノテーションを統合したアノテーションデータベースを作成した。

 我々(著者ら)は、バイオインフォマティクス手法の経験のないユーザーにも自信を持ってRNA-Seqデータを解析できるようにすることを目的として、RaNA-Seqを設計した。理想的なRNA-Seq解析インターフェースが持つべきであるPoplawskiら(2016)によって記述された主な推奨事項に従った。補足表S1は、他のRNA-Seq解析プラットフォームと比較して、我々のプラットフォームが最も完成度の高い解析アプリケーションの一つであることを示している。

 パフォーマンスの高さはRaNA-Seqのもう一つの重要な特徴である。完全なRNA-Seq解析は、2つの簡単なステップで数分で実行される(論文補足図S1および補足表S2)。本解析には、FASTQファイルの定量、リードトリミング、サンプルの品質管理、発現変動、 functional enrichment解析、gene set enrichment analysis(GSEA)が含まれている。現在、RaNA-Seqは、10のヒトRNA-Seqサンプルのプロジェクトに対して、平均30分でこれらすべての処理を実行することができ、これは著者らの経験上、最速のRNA-Seq解析ウェブプラットフォームである(論文補足図S2の実行時間のガントチャートを参照)。

 

 

f:id:kazumaxneo:20200408094448p:plain

RaNA-SEQ Workflow.  HPより転載

 

RaNA-SEQ Tutorial 

 

 

helpからマニュアルPDFをダウンロードできます。結果の解釈の仕方についても簡単に説明されています。読んで下さい。

https://ranaseq.eu/help

 

webサービス

https://ranaseq.eu/ にアクセスする。

f:id:kazumaxneo:20200408094255p:plain

 

Analysisタブに移動。アノニマスモードで使用する事もできるが、登録が推奨されている。

f:id:kazumaxneo:20200408094341p:plainその場でアカウントは作成され、すぐにログインできるようになる。

 

1、サンプルのアップロード

解析の流れを確認していく。

RaNA-Seqは、Reference genomeを指定し、シーケンシングリード(fastq)をアップロードするだけでRNA-seq解析を行うことができる。

f:id:kazumaxneo:20200407213325p:plain

 

まずリファレンスゲノムを指定する。インクリメンタルサーチに対応しているので、タイプして絞り込む。

f:id:kazumaxneo:20200407213522p:plain

 

リファレンスゲノムがない場合、問い合わせると登録してもらえる。

f:id:kazumaxneo:20200407213251p:plain

(?をクリックすると右下にhelpが表示されます)

 

 

 

ペアエンドがシングルエンドかを指定して、gzip形式の圧縮fastqをアップロードする(拡張子は.fastq.gzになっている事)。まずペアエンドかシングルエンドか選択し、

f:id:kazumaxneo:20200408094053p:plain

Advancedをクリックしてライブラリタイプを選択する。

f:id:kazumaxneo:20200410095248p:plain

 

ファイルを指定するか、ウィンドウ内にドラッグ&ドロップすると、

f:id:kazumaxneo:20200407213830p:plain

 

リストに登録されていく。全ファイルを一度にドラッグ&ドロップしてO.K。ペアエンドは2つのファイルを一度にドラッグ&ドロップしてもペアで登録される。

f:id:kazumaxneo:20200408093919p:plain

時々認識されないことがある。リストに出ない場合はドラッグ&ドロップをやり直す。

 

 アップロードのゲージが進行していくので、全サンプルの アップロードが終わるまで待つ。

f:id:kazumaxneo:20200408095006p:plain

 アップロードに失敗しているサンプルはfastqの右にxが付く。この状態だと左端のチェックマーク✔︎をONにできない。右端のボタンをクリックして消し、もう一度アップロードする。

f:id:kazumaxneo:20200410094332p:plain

 

select allを押して全選択した。

f:id:kazumaxneo:20200408101734p:plain

補足

アップロードが完了すると、そのままマッピングが開始される。リスト右端にあるウオッチマークをクリックすると、サンプルの品質を確認できる。

f:id:kazumaxneo:20200408101825p:plain

 

補足

手持ちのfastq以外に、SRA/ENAのプロジェクトのダイレクトアップロードにも対応している。

f:id:kazumaxneo:20200410100246p:plain

プロジェクトのidentifierを打ち込む。

 

サンプルのペアを確認して解析をスタートさせる。

 

f:id:kazumaxneo:20200410103920p:plain

いくつかのレビューでは、それぞれの研究デザインに合わせて解析を行う必要があると結論づけている。解析ツールを変更して発現解析を繰り返すことを推奨する(マニュアルより)。

f:id:kazumaxneo:20200410104447p:plain

 

 

 

 

2、結果

終わった項目から閲覧できるようになる。

f:id:kazumaxneo:20200409222751p:plain

 

 

Quantification

Salmonを使ったリード定量値が出力される。

f:id:kazumaxneo:20200409224024p:plain

定量結果はTSVやexcel形式でダウンロードできる。

f:id:kazumaxneo:20200410111217p:plain

 

QC

f:id:kazumaxneo:20200409223822p:plain

 f:id:kazumaxneo:20200409223830p:plain

f:id:kazumaxneo:20200409223827p:plain

f:id:kazumaxneo:20200409223836p:plain


DE results

f:id:kazumaxneo:20200410111403p:plain

f:id:kazumaxneo:20200410111412p:plain

 

f:id:kazumaxneo:20200410111453p:plain

 

Functional enrichment

f:id:kazumaxneo:20200409222648p:plain

 

Gene OntologyとPathwayが選べる。

f:id:kazumaxneo:20200409224140p:plain

GOはAmiGO2ともリンクしている。

 

pathwayはKEGGとBIOCYCを利用している。

f:id:kazumaxneo:20200409222633p:plain
KEGGのデータはKEGG pathwayにリンクしている。

 

Barplot

f:id:kazumaxneo:20200410091956p:plain


Bubbleplot

f:id:kazumaxneo:20200410091918p:plain

 

Network

f:id:kazumaxneo:20200410091637p:plain

Symmetric Heatmap

f:id:kazumaxneo:20200410091633p:plain

TriangleとSquareから選べる。

 

GSEA (GOとpathway)

f:id:kazumaxneo:20200409224355p:plain

 

RUG plots 

f:id:kazumaxneo:20200410091310p:plain

Network

f:id:kazumaxneo:20200410091436p:plain



 

Symmetric Heatmap

f:id:kazumaxneo:20200410091320p:plain

TriangleとSquareから選べる。

感想

fastqからスタートするため、IDの互換性なども気にせず結果を出せる素晴らしいサービスです。ただ、fastqのアップロードがやや不安定で、アップロードが完了していてもペアエンドの片方しか認識しないなどの現象が発生しました。私だけかもしれませんが、アップロードは注意して下さい。使用したウェブブラウザかデータに問題があったのかもしれません(macos10.14.6のsafari最新版使用)。

引用

RaNA-Seq: interactive RNA-Seq analysis from FASTQ files to functional analysis
Carlos Prieto, David Barrios
Bioinformatics, Volume 36, Issue 6, 15 March 2020, Pages 1955–1956

 

関連

関連ツール