インタラクティブな主成分分析webサービスによってRNA seqデータを分析する PCAGO

　過去10年の間に、全トランスクリプトームのシークエンス（RNA-Seq）は、多様な分子機構を理解し、様々な生物学的問題に取り組むための強力な技術として浮上してきた。RNA-Seq実験の初期段階では、異なる遺伝子発現レベルに基づいた生物学的サンプルの初期特性評価とクラステリングが重要なステップとなっている。主成分分析(PCA)は、変動を強調し、遺伝子発現値の行列のような高次元データセットの中から強いパターンを切り出すために使用される技術である。
　PCA変換のアウトプットは、データの探索や可視化を容易にするために使用することができ、バイオインフォマティクスで広く使われているアプローチであり、今日ではほとんどすべてのRNA-Seq解析パイプラインの重要な一部となっている。
　PCAは計算が簡単で、トランスクリプトミクス、メタボロミクス、医学研究などで頻繁に使用されているが、実験データを解析する際に特に発生する可能性のあるいくつかの課題や欠点が存在する。例えば、データの可視化と解釈は、考慮される主成分、最変量遺伝子の数、遺伝子発現の事前正規化によって大きく影響を受ける可能性がある。一般的に、総分散偏差に最も寄与する主成分が選択される。しかし、多くの場合、例えば、個々の成分の分散が互いに近い場合など、最大の分散を持つ成分だけに焦点を当てても、興味深い結果が直接観察できないことがある。したがって、変換から意味のある解釈を導き出すためには、成分を慎重に評価することが重要である。
　一般的に、（バルクの）RNA-Seqデータは、数千の遺伝子の発現を基にしており、サンプル数が非常に少ないため、高い次元性を持っている。低次元の投影は、PCAのような特異値分解を用いて達成することができる。データは、元の変数の特異値分解（遺伝子とサンプルごとに1回のリード数）を行うことで構築された主成分（PC）と呼ばれるより少ない数の変数の形で提示される。（一部略）

ベストプラクティスとして、PCAはまず品質管理、例えば、生物学的リプリケートが類似した発現プロファイルを持ち、クラスタリングする傾向があるかどうかを確認するために使用されるべきである。

　定義により、第一主成分（PC1）は、データ内の可能な最大の分散を説明する。PC2は分散の2番目に大きい部分を説明する。伝統的に、最初の数個のPCが元のデータセットの変動の大部分を捉えているため、これらのPCが可視化に使用される。しかし、PC3やPC4のような情報量の少ないPCも、PC1やPC2に匹敵する強いパターンを捉え、遺伝子発現パターンの違いをより明確に区別するのに役立つかもしれない（ref.2）。PCAのバックボーンとして使用する遺伝子セットの違いやPC数の違いは、クラスター構造を捉える際の有効性に影響を及ぼす可能性がある（ref.2,3）。したがって、低分散PCは、ユビキタスに発現している遺伝子（例えば、潜在的なハウスキーピング遺伝子）を特定するためにも使用可能であり、その場合は、PCA可視化のバックボーンとして、より信頼性の高い遺伝子セットを定義するための追加のフィルタリングステップとして使用することができる。したがって、遺伝子発現データに結論を出す前に、PCA変換の有効性を調査する必要性が大いにある。
　ここでは、RNA-Seqから得られた定量データをPCAで解析し、可視化するためのインタラクティブで使いやすいツールであるPCAGOを紹介する。PCAGOはWebサービスから直接実行でき、特にローカルで使用する場合は、Dockerコンテナから単一のコマンドでツールを起動することができる。機能性は、Klassertら（ref.7）とRiegeら（ref.8）から得られたRNA-Seqサンプルのリードカウントをロードすることで簡単にテストできる（Start analysis -→Load all sample dataを実行）。他のPCAツールとは対照的に、PCAGOは、PCのようなトランスフォーメーションの主要な機能を包括的に検査し、変化させる機会をユーザーに与え、異なる結果を簡単に比較することができる。さらに、PCAはアノテーションでフィルタリングされた遺伝子サブセット上に構築することができ、最終的な可視化に関心のある生物学的な疑問をより良く反映させることができる。すべての遺伝子と同じクラスタリングを生成する遺伝子の最小セットを計算することができ、アニメーション化されたPCAは、変換に少ないバリアント遺伝子を徐々に含めることによって、PCとクラスタリングがどのように変化するかを示す。最後に、すべての計算ステップは、実行されたPCAの完全な再現性を可能にするために十分に文書化されている。

PCAGO (PCA for RNA-Seq data) is now also running with @Docker using windows or mac systems. Simply:

docker run -p 8000:8000 --rm -it mhoelzer/pcago:1.0--c1e506c ./run_packrat.sh

and open in your browser:

127.0.0.1:8000

Thx, Lasse!

Preprint: https://t.co/cd5T5xhs4R
— Martin Hölzer (@martinhoelzer) 2019年9月17日

Check out our latest preprint @biorxiv_bioinfo about #PCAGO: interactively analyzing and visualizing RNA-Seq count data with principal components.https://t.co/cd5T5xhs4R

You can even export your #PCA as an mp4. ;)

We are happy to receive any feedback!https://t.co/sxVGrtvSto pic.twitter.com/pxN99wjbab
— Martin Hölzer (@martinhoelzer) 2018年10月9日

Github

ローカルでのラン

#1 run
#ローカルマシン
docker run -p 8000:8000 --user $(id -u):$(id -g) --rm -it mhoelzer/pcago:1.0--c1e506c ./run_packrat.sh

#計算機サーバーで立ち上げてログインする
ssh -L 8000:127.0.0.1:8000 your@your.server.com

#login
access to 127.0.0.1:8000

*webサーバーのリソースは限られるため、データサイズが大きければローカルマシンでのランが推奨されている。

webサービス

https://pcago.bioinf.uni-jena.de にアクセスする。