RNAシーケンス解析のための統合プラットフォーム ExpressAnalyst

非モデル生物種の研究へのRNAシーケンスの応用が進むにつれ、研究者が生物学的および機能的洞察を迅速に明らかにするための、使いやすく効率的なバイオインフォマティクスツールが求められている。我々は、あらゆる真核生物種のRNAシーケンスデータを処理、解析、解釈するためのウェブベースのプラットフォームであるExpressAnalyst (www.expressanalyst.ca)を開発した。ExpressAnalystには、FASTQファイルの処理やアノテーションから、カウントテーブルや遺伝子リストの統計的・機能的解析までをカバーする一連のモジュールが含まれている。すべてのモジュールはEcoOmicsDBと統合されており、参照トランスクリプトームがない生物種の包括的な解析を可能にするオルソログデータベースです。ExpressAnalystは、超高速リードマッピングアルゴリズムと高解像度オルソログデータベースをユーザーフレンドリーなウェブインターフェースで結合することにより、研究者は生のRNAシーケンスリードから24時間以内にグローバルな発現プロファイルと遺伝子レベルの洞察を得ることができる。

Tutorial

https://www.expressanalyst.ca/ExpressAnalyst/docs/Tutorial.xhtml

リファレンスベースの解析は以下の種に対応している。

リファレンストランスクリプトームがない生物種については、EcoOmicsDBのオルソログデータベースを分類群ごとに整理し、利用されている。Seq2Funアルゴリズムは、オルソロググループ（EcoOmicsDB）に整理された600種以上のタンパク質配列の大規模データベースにショートリードをアライメントすることでこの問題を解決する（詳細はSeq2Funページで説明されている（HPより）。

webサービス

https://www.nature.com/articles/s41467-023-38785-yにアクセスする。

Startをクリック

Raw Data Proccessingを選択

リファレンスゲノムを持たない非モデル生物のRNAseqの場合、ExpressAnalystはSeq2Funアルゴリズムを使用して、感度の高いGreedy翻訳検索を実行し、600以上の生物をカバーする～30の分類群に対する包括的なデータベースを使用して、相同タンパク質配列を同定および定量化する（Seq2Fun紹介）。
リファレンスゲノムがある生物種の RNAseq の場合、ExpressAnalyst は、～20 種類の一般的な生物のリファレンスゲノムを組み込んだ Kallisto アルゴリズムを使用する。

fastqからのプロセシングにはローカルサーバーやローカルの計算機の使用が推奨されている。

”ローカルRNAseq処理にはDockerバージョンの使用が強く推奨される。このパイプラインは、8G以上のRAMと100G以上の空きディスク容量を持つ最新のラップトップまたはワークステーションで十分に実行できる。Dockerインストーラー＋Dockerソフトウェア＋ExpressAnalyst Dockerコンテナで、Mac/Linuxの場合は～4GB、Windowsの場合は～6～7GBのスペースが必要で、インストールに10～20分かかる”

https://hub.docker.com/r/dockerxialab/expressanalyst_docker

＝> M1 macのDocker Desktopで試したが、正常に起動しなかった。

プロセシング後にできるエンリッチメント解析について見ていきます。

画像左の３つがエンリッチメント解析のボタンとなっていて、遺伝子IDをアップしてエンリッチメント解析などを行う時は左端のボタンから、遺伝子と発現値のテーブル（ gene expression table）をアップして解析するには中央のボタンから、複数のオミクスデータをアップしてメタ解析するには右のボタンから開始する。右端のEcoOmicsDBはSeq2Funのオルソロググループのデータベースで、Seq2Fun orthologsを検索できる。

左端のlist of gene IDを選択

遺伝子／タンパク質のリストを1つまたは複数入力する。ここでは下のボタンからexampleをロードした。ヒト、Entrez識別子指定、リストは遺伝子IDとlogFCの２列フォーマット。複数の識別子を使用する場合、“//” でセパレータ行を付ける。

Uploadをクリック、正常にアップされると画面下のProceedをクリックできるようになる。

次の画面。３つの解析メニューがアクティブになっている。

Enrichment network：ネットワークでエンリッチされた機能的カテゴリーを可視化する。

Ridgeline Chart

エンリッチされたパスウェイのフォールド変化分布を可視化

データベースの切り替えが可能（図はhumanの場合）

左のメニューからraw P-value cut-offを0.01にした。上からP値が低い順にソートされているので、緑色が付いたのは上の２つのカテゴリーに留まった（右端の凡例参照）。

図は矢印”↓”からダウンロードできる。

ORA Interactive heatmap

灰色はその遺伝子がORAリストに存在しないことを意味する。ORAヒートマップは、異なるデータセット間で共有される／ユニークな遺伝子を可視化し、エンリッチメント解析を実行するのに便利である（HPより）。（先ほどとは別のexample data (6)）

Upset diagram

中央はA single expression tableの解析。expression tableをアップする。

exxample dataをロードした（uploadボタンを押すとエラーになる。押さずにProceedをクリック）。

QC画面。サンプルごとのノーマライズ後のbox plotやPCA plotなど。一度Proceedをクリック。

さきほどと同じ画面だが、今度は操作できる。差分解析前に、条件を指定して不要な遺伝子をカットオフする。デフォルトでは低発現の４％遺伝子をカットオフし、分散が低い15％遺伝子もカットオフする。”Genes remaining after filtering: 14145”と中央に出ている。Proceedをクリック。

発現変動遺伝子の検定を行う。前の画面で指定した条件によって、選択できる項目には制限がある。Proceedをクリック。

統計的に有意に変動している遺伝子がリストされた。

Proceedをクリック。

gene listの時と同じ解析メニューが選択できるようになった。

Volcano plot

次元削減（3D plot）

Score Plot

Loading plot

Heatmap (GSEA)

このように、発現変動遺伝子の検定がまだなら中央のボタンから進め、発現変動遺伝子の検定が終わっているなら左のボタンから進める。

右端のメタ解析については、current protocolsやチュートリアルを参照してください。

その他

大規模なデータ提出に伴う計算コストの増加のため、公開プラットフォームはマギルデータセンターのローカルサーバーでホストされている。同センターのメンテナンススケジュールに伴い、ダウンタイムが発生する可能性がある。
データユーザーのデータは、データ分析中、サーバーの一時フォルダに保存される。これらは72時間以内にデータクリーニングルーチンによって自動的に削除される。

引用

ExpressAnalyst: A unified platform for RNA-sequencing analysis in non-model species

Peng Liu, Jessica Ewald, Zhiqiang Pang, Elena Legrand, Yeon Seon Jeon, Jonathan

Sangiovanni, Orcun Hacariz, Guangyan Zhou, Jessica A. Head, Niladri Basu & Jianguo Xia
Nature Communications volume 14, Article number: 2995 (2023)

オープンアクセスでcurrent protocolsにも論文が出ています。

https://currentprotocols.onlinelibrary.wiley.com/doi/10.1002/cpz1.922

基本プロトコル1：RNA-seqカウントテーブルのアップロード、処理、正規化
基本プロトコール2：線形モデルを用いた発現差解析
基本プロトコル3：ボルケーノプロット、エンリッチメントネットワーク、リッジライン可視化による機能解析
基本プロトコール4：インタラクティブヒートマップを用いたトランスクリプトミクスデータの階層的クラスタリング解析
基本プロトコール5：オルソログマッピング結果に基づく種を超えた遺伝子発現解析
基本プロトコル6：プロテオミクスおよびマイクロアレイデータの処理と正規化
基本プロトコール7：メタ解析のための複数遺伝子発現表の作成
基本プロトコール8：遺伝子発現データの統計的および機能的メタ解析
基本プロトコール9：トランスクリプトミクスシグネチャーの機能解析
基本プロトコール10：Dose-responseおよび時系列データ解析
基本プロトコール11：RNA-seqリードの処理と定量、リファレンストランスクリプトームあり、なし

ExpressAnalystを使った解析手順が完全に説明されているので、興味がある方は確認して下さい。また、step1-11のデータはチュートリアルからダウンロードできます（link）。

Using ExpressAnalyst for Comprehensive Gene Expression Analysis in Model and Non-Model Organisms
Jessica Ewald, Guangyan Zhou, Yao Lu, Jianguo Xia
First published: 06 November 2023