macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

DEG解析の密度ベースの代替手法 EPCY

 

 高スループットデータから予測可能な遺伝子同定は、バイオメディカル研究における重要な課題である。現在の多くのアプローチは、統計的検定を用いて差異的発現遺伝子(DEG)を選択しているが、これらは生物学的な結果の予測という目的と一致しない可能性がある。本研究では、交差検証された分類器と密度推定を用いて遺伝子の予測力を基にランク付けし、nullモデルに基づく仮説検定に依存しない手法「EPCY」を提案する。バルクおよびシングルセルRNAシーケンスデータセットの両方に適用されたEPCYは、ベンチマークとなるDEGベースの手法よりも一貫して優れた性能を示し、堅牢な候補遺伝子を選択した。また、コホートサイズの変動に対してより高い安定性を示し、大規模で異質なデータセットでも再現可能な遺伝子優先順位付けを可能にする。EPCYは解釈可能な予測スコアを提供し、下流の検証目標と一致した候補選択を容易にする。

 

インストール

依存

Github

pip install epcy

#matplotlibのバージョンエラーが出たので以下のように対処
mamba install matplotlib=3.6.3 -y

> epcy -h

usage: PROG [-h] {pred,pred_rna,profile,profile_rna,qc,kal2mat,explore,ct} ...

 

positional arguments:

  {pred,pred_rna,profile,profile_rna,qc,kal2mat,explore,ct}

                        sub-command help

    pred                Compute predictive capability of each normalized features (Generic case).

    pred_rna            Compute predictive capability of each genes/transcripts expression.

    profile             Plot profile of a list of features.

    profile_rna         Plot profile of a list of genes/transcipts.

    qc                  Plot quality conrol gaph.

    kal2mat             Build and save matrix expression from kallisto quantification h5 files.

    explore             Create figures to explore subgroup_predicted.tsv.

    ct                  Return a contingency table by feature, using subgroup_predicted.tsv.

 

optional arguments:

  -h, --help            show this help message and exit

 

 

テストラン

git clone https://github.com/iric-soft/epcy.git
cd epcy/data/small_for_test/
epcy pred -d design.tsv -m log_normalized_matrix.tsv -o EPCY_output

#log2変換してないなら--logを付ける
epcy pred -d design.tsv --log -m normalized_matrix.tsv -o EPCY_output

#正規化もlog2変換もしてないなら--normをつける
epcy pred -d design.tsv --norm --log -m matrix.tsv -o EPCY_output

出力例

predictive_capability.tsv

MCCで予測を評価している。MCC が高く、信頼区間が狭いものが生物学的に重要な変動遺伝子と考えられる。

 

レポジトリと論文より

  • 同じデータでもランごとに結果が微妙に異なることがある。結果の再現性を確保するためには、"--randomseed <INT>"でランダムシードを固定値にする(レポジトリ参照)。
  • Liuら(15)が指摘するように、リプリケート数を増やすとDEGの検出力は向上する。しかし同時に、統計的には有意であっても生物学的には無関係な遺伝子を検出する可能性も高くなる。Venetら(16)が、100遺伝子を超えるランダムなシグネチャの90%がアウトカムを予測できると示したように、十分なサンプル数があれば遺伝子発現の差はほぼ常に検出可能であり、帰無仮説が本当に成り立つケースは稀である。著者らはこれを、「画面サイズを大きくしても解像度は上がらない」あるいは「ズームアウトして視野は広がったがピントは合わない」状態に例えられると考える。
  • 一般的なDEG解析手法では、シングルセルやコホートのようにサンプル数が増えると分散推定がより正確になる一方で、わずかな差も統計的に有意になりやすくなり、p値が極端に小さくなり鋭敏になりすぎる。しかし統計的に有意な遺伝子が必ずしも生物学的に意味を持つとは限らないことがある。特にほぼ全ての有意な遺伝子が同じp値(0)になると、ランク付けや差の比較が難しくなる。EPCYは遺伝子ごとに分類モデルを構築し、その予測性能をMCCスコアで評価する。スコアは0〜1の範囲で意味を持ったまま推移し、サンプル数が増加しても予測精度の向上か安定化にしか作用せず、上位遺伝子の順位がより確実になる。そのため、EPCYより効果的かつ再現性の高いDEG解析の代替手法となる。

引用

Predictive Gene Discovery with EPCY: A Density-Based Alternative to DE analysis

Éric Olivier Audemard, Jean-François Spinella, Vincent-Philippe Lavallée, Josée Hébert, Guy Sauvageau,  Sebastien Lemieux

bioRxiv, posted August 11, 2025

 

関連