ゲノムワイド関連研究(GWAS)で同定された遺伝子変異の90%以上は、ヒトゲノムの非コード領域に存在する。ここでは、非コード領域の遺伝子変異の機能的活性を評価するための、ユーザーフレンドリーなウェブサーバー「DeepFun」(https://bioinfo.uth.edu/deepfun/)を紹介する。この新しいサーバーは、広く評価されている畳み込みニューラルネットワーク(CNN)のフレームワークに基づいて構築されている。具体的には、ENCODEおよびRoadmapプロジェクトからクロマチンプロファイルを収集し、225の組織または細胞タイプをカバーする1548のDNase Iアクセシビリティ、1536のヒストンマーク、4795の転写因子結合プロファイルを含む特徴空間を構築した。このような包括的なエピゲノミクスのアノテーションにより、DeepFunは、既存のノンコーディングバリアント優先順位付けツールの機能を拡張し、組織や細胞の種類に応じたノンコーディングバリアントのより具体的な機能評価を提供する。さらに、様々なGWAS研究のデータセットを用いて独自の検証を行い、特定の組織や細胞型におけるノンコーディングバリアントの影響を予測し、バリアント周辺領域の潜在的なモチーフを可視化するというDeepFunウェブサーバの機能を実証した。このサーバーは、遺伝学、機能ゲノミクス、疾病研究などに広く利用されることを期待している。
Tutorial
https://bioinfo.uth.edu/deepfun/tutorial.php?csrt=5248475927483401860
https://bioinfo.uth.edu/deepfun/にアクセスする。
1、Screen analysis
HPより
スクリーン解析では、多数のバリアント(1ジョブあたり最大3000個)について、すべてのクロマチンの特徴を対象に、2つの対立遺伝子間のSNP Activity Difference(SAD)および相対的なlog fold change of odds(log-odds)の差を計算する。これは主に予備的なスクリーニングに使用され、例えば、SADやlog-odds differenceに基づいてクエリバリアントをランク付けすることで、潜在的な制御機能のバリアントを発見するのに役立つ。
バリアントデータをアップロードする。入力形式は、染色体、ポジション、reference allele、alternative alleleをスペースまたはタブで区切ったテキスト(各バリアントは1行)となる。VCF形式(ヘッダはなし)にも対応している(tutorial参照)。ここではexampleデータを指定した。
(各ジョブでは最大3000個のバリアントを受け付ける。Y染色体やミトコンドリアに存在するバリアントは拒否される。)
機能カテゴリと完成度に応じて、2つのモデルが構築されている。
(a) DNase-seq(1548),histone mark(1536),転写因子CTCF(367)のプロファイルを含む合計で3451のプロファイルを統合
(b) すべての転写因子結合プロファイルを含む4428プロファイルを統合(CTCFを除く)。
メールアドレスを書いてSUBMITをクリック。
スクリーン解析を実行するには、1バリアントあたり約5秒かかる。ジョブIDを覚えていく。
出力
Exampleデータの分析には10分ほどかかった。
(結果ファイルは、サーバーに30日間保存された後、削除される。)
(tutorialより)
より良いカスタムフィギュアのために、ダウンストリーム解析(ヒートマッププロット、品質管理、有意な変化の評価)のコードをGithubに寄託した。また、DeepFunの学習済みモデルをGithubに掲載し、ユーザーが学習済みモデルをローカルのハードウェアで実行できるようにした。
2、In silico saturated mutagenesis analysis
HPより
in silico saturated mutagenesis analysisは、ユーザーが指定したクロマチンの特徴を考慮しながら、クエリバリアントの200bpの領域内の各塩基置換の影響を系統的に評価する。ターゲットSNPの周辺領域の影響を評価したり、機能的バリアント周辺の影響を受ける可能性のあるモチーフを調べるために利用できる。具体的には、基準対立遺伝子と代替対立遺伝子を考慮して、入力配列のすべての塩基を変異させ、配列活性確率の変化を計算する。なお、in silicoでの飽和変異誘発には時間がかかるため、DeepFunは、1つのジョブにつき1つのバリアントしか受け付けていない。ユーザーは、対象となるクロマチンの特徴を指定する必要がある。これは、1のスクリーン解析によって決定できる。一般的には、最も情報量の多い上位1~10のフィーチャーがin silico saturated mutagenesisの対象となる。
バリアントコール(ユーザーが指定したクロマチンfeatureの下で1つのバリアントのみを受け入れる(実行時間:~20分))のほか、ゲノムアセンブリバージョン(hg19/GRCh37またはhg38/GRCh38)、モデル(PanelA, B)、実験対象(AではDNase-seq、ヒストンマーク、転写因子-CTCFのプロファイル。Bでは転写因子プロファイル)、組織・細胞の種類を指定する。ここではexampleデータを指定してから各タイプをランダムに選んだ。
出力
クロマチンの特徴ごとに、バリアントの基準対立遺伝子と代替対立遺伝子(-99~100bp)の周りのSAD変化パターンを表示する2つのヒートマップを提供する。また、バリアントの上流99bpから下流100bpまでの最大ゲインとロスのSAD値を含むテーブルも提供される(出力例)。
引用
DeepFun: a deep learning sequence-based model to decipher non-coding variant effect in a tissue- and cell type-specific manner
Guangsheng Pei, Ruifeng Hu, Peilin Jia, Zhongming Zhao
Nucleic Acids Res. 2021 Jul 2;49(W1):W131-W139