（ヒトゲノム）非コード領域のバリアントの機能を評価するウェブサーバー DeepFun

　ゲノムワイド関連研究（GWAS）で同定された遺伝子変異の90％以上は、ヒトゲノムの非コード領域に存在する。ここでは、非コード領域の遺伝子変異の機能的活性を評価するための、ユーザーフレンドリーなウェブサーバー「DeepFun」（https://bioinfo.uth.edu/deepfun/）を紹介する。この新しいサーバーは、広く評価されている畳み込みニューラルネットワーク（CNN）のフレームワークに基づいて構築されている。具体的には、ENCODEおよびRoadmapプロジェクトからクロマチンプロファイルを収集し、225の組織または細胞タイプをカバーする1548のDNase Iアクセシビリティ、1536のヒストンマーク、4795の転写因子結合プロファイルを含む特徴空間を構築した。このような包括的なエピゲノミクスのアノテーションにより、DeepFunは、既存のノンコーディングバリアント優先順位付けツールの機能を拡張し、組織や細胞の種類に応じたノンコーディングバリアントのより具体的な機能評価を提供する。さらに、様々なGWAS研究のデータセットを用いて独自の検証を行い、特定の組織や細胞型におけるノンコーディングバリアントの影響を予測し、バリアント周辺領域の潜在的なモチーフを可視化するというDeepFunウェブサーバの機能を実証した。このサーバーは、遺伝学、機能ゲノミクス、疾病研究などに広く利用されることを期待している。

Tutorial

https://bioinfo.uth.edu/deepfun/tutorial.php?csrt=5248475927483401860

Github

webサービス

https://bioinfo.uth.edu/deepfun/にアクセスする。

１、Screen analysis

HPより

スクリーン解析では、多数のバリアント（1ジョブあたり最大3000個）について、すべてのクロマチンの特徴を対象に、2つの対立遺伝子間のSNP Activity Difference（SAD）および相対的なlog fold change of odds（log-odds）の差を計算する。これは主に予備的なスクリーニングに使用され、例えば、SADやlog-odds differenceに基づいてクエリバリアントをランク付けすることで、潜在的な制御機能のバリアントを発見するのに役立つ。

バリアントデータをアップロードする。入力形式は、染色体、ポジション、reference allele、alternative alleleをスペースまたはタブで区切ったテキスト（各バリアントは1行）となる。VCF形式(ヘッダはなし)にも対応している（tutorial参照）。ここではexampleデータを指定した。

f:id:kazumaxneo:20210704232542p:plain

（各ジョブでは最大3000個のバリアントを受け付ける。Y染色体やミトコンドリアに存在するバリアントは拒否される。）

機能カテゴリと完成度に応じて、2つのモデルが構築されている。

(a) DNase-seq（1548），histone mark（1536），転写因子CTCF（367）のプロファイルを含む合計で3451のプロファイルを統合

(b) すべての転写因子結合プロファイルを含む4428プロファイルを統合（CTCFを除く）。

f:id:kazumaxneo:20210705233303p:plain

メールアドレスを書いてSUBMITをクリック。

f:id:kazumaxneo:20210705233324p:plain

スクリーン解析を実行するには、1バリアントあたり約5秒かかる。ジョブIDを覚えていく。

出力

Exampleデータの分析には10分ほどかかった。

f:id:kazumaxneo:20210704233405p:plain

（結果ファイルは、サーバーに30日間保存された後、削除される。）

（tutorialより）

より良いカスタムフィギュアのために、ダウンストリーム解析（ヒートマッププロット、品質管理、有意な変化の評価）のコードをGithubに寄託した。また、DeepFunの学習済みモデルをGithubに掲載し、ユーザーが学習済みモデルをローカルのハードウェアで実行できるようにした。

２、In silico saturated mutagenesis analysis

HPより

in silico saturated mutagenesis analysisは、ユーザーが指定したクロマチンの特徴を考慮しながら、クエリバリアントの200bpの領域内の各塩基置換の影響を系統的に評価する。ターゲットSNPの周辺領域の影響を評価したり、機能的バリアント周辺の影響を受ける可能性のあるモチーフを調べるために利用できる。具体的には、基準対立遺伝子と代替対立遺伝子を考慮して、入力配列のすべての塩基を変異させ、配列活性確率の変化を計算する。なお、in silicoでの飽和変異誘発には時間がかかるため、DeepFunは、1つのジョブにつき1つのバリアントしか受け付けていない。ユーザーは、対象となるクロマチンの特徴を指定する必要がある。これは、１のスクリーン解析によって決定できる。一般的には、最も情報量の多い上位1～10のフィーチャーがin silico saturated mutagenesisの対象となる。

バリアントコール（ユーザーが指定したクロマチンfeatureの下で1つのバリアントのみを受け入れる（実行時間：～20分））のほか、ゲノムアセンブリバージョン（hg19/GRCh37またはhg38/GRCh38）、モデル（PanelA, B）、実験対象（AではDNase-seq、ヒストンマーク、転写因子-CTCFのプロファイル。Bでは転写因子プロファイル)、組織・細胞の種類を指定する。ここではexampleデータを指定してから各タイプをランダムに選んだ。

f:id:kazumaxneo:20210705233801p:plain

出力
クロマチンの特徴ごとに、バリアントの基準対立遺伝子と代替対立遺伝子（-99～100bp）の周りのSAD変化パターンを表示する2つのヒートマップを提供する。また、バリアントの上流99bpから下流100bpまでの最大ゲインとロスのSAD値を含むテーブルも提供される（出力例）。

f:id:kazumaxneo:20210706000938p:plain

引用
DeepFun: a deep learning sequence-based model to decipher non-coding variant effect in a tissue- and cell type-specific manner
Guangsheng Pei, Ruifeng Hu, Peilin Jia, Zhongming Zhao
Nucleic Acids Res. 2021 Jul 2;49(W1):W131-W139