ゲノム上でクラスターを形成する遺伝子群を探すwebサービス Cluster Locator

　遺伝子は真核生物のゲノムに沿ってランダムには配置されていないことが十分に確立されている（Feuerborn and Cook、2015; Hurst et al、2004）。これまでに研究されたすべての真核生物で、遺伝子の位置と遺伝子発現、遺伝子機能または量的形質の間の多様な相互相関が発見されている（De and Babu、2010; Ghanbarian and Hurst、2015）。これらの相関は、イーストSaccharomycesでほぼ20年前に最初に観察され（Eisen et al、1998）、後に線虫、ハエ、マウス、ヒトおよびその他の生物で観察された（Michalak、2008）。「クラスター」という用語の多様な定義を使用して、いくつかの研究は、機能を共有する共発現遺伝子のクラスター、ゲノム内の近傍を共有する機能的に関連する遺伝子のクラスター、または類似の発現パターンまたは関連機能を持つ近隣の遺伝子のグループを発見した（Corrales et al、2017; Lee and Sonnhammer、2003;Reimegårdet al、2017;Théveninet al、2014; Tiirikka et al、2014; Yi et al、2007）。したがって、現在、ゲノム内の遺伝子の相対的な位置は、その生物学的機能またはその発現パターンとは無関係ではないことが受け入れられている。

　近年、ゲノムアノテーションの改良と遺伝子発現データの増加により、共機能または共発現遺伝子のリストの構築は比較的容易になった。それにもかかわらず、リスト上の遺伝子がゲノムに沿ってクラスター化される方法の簡単な統計分析を可能にするツールが不足している。開発されたいくつかのツールはこれに関する洞察を提供することができる（Aboukhalil et al、2013; Dottorini et al、2013; Yi et al、2007）が、特にそうするように設計されておらず、現在オンラインまたはリクエスト後に利用することはできない。

　ここでは、ユーザーが提供するタンパク質コード遺伝子のリストを指定し、許可された最大ギャップを選択した後（以下の定義を参照）、すべてのクラスターを検索、定量、表示する無料のオンラインで使いやすいツールであるCluster Locatorを紹介する。結果はブラウザに表示され、ダウンロード可能なCluster Locatorの出力には、識別されたクラスター数、サイズ、位置、各クラスター内の遺伝子のidentityと位置、および結果の統計分析が含まれる。

　Cluster Locatorは、バックエンドでPython 2.7に実装されたWebベースのアプリケーションであり、フロントエンドでReactJSおよびD3jsライブラリを使用する。バックエンドはAWS Lambdaにデプロイされ、フロントエンドの静的ファイルはAWS S3ストレージに保存される。（以下略）

User guide

https://s3.amazonaws.com/cluster-locator-statics/user_guide.pdf

使い方

http://clusterlocator.bnd.edu.uy にアクセスする。

リファレンスゲノムを指定する。

f:id:kazumaxneo:20191106002015p:plain

調べる遺伝子リストを1行１ID形式でアップロードする。対応するgene IDはDocument参照。ヒトであればEnsembl geneIDかHGNC official symbolsが対応している。

f:id:kazumaxneo:20191106021751p:plain

最大1,000遺伝子分析可能。

クラスターは、隣接する遺伝子間のギャップが指定した最大ギャップセットより大きくならない遺伝子セットとして定義される（DocumentのFig.1参照）。この最大ギャップサイズを指定する。

f:id:kazumaxneo:20191106021539p:plain

ここでは上の方にある"Cick here"からexampleデータをランする。

結果

検出されたクラスター数、クラスターに含まれる遺伝子数、

f:id:kazumaxneo:20191106002147p:plain

Uniformaly testは普通分布（正規分布）の判定などに使うコルモゴロフ–スミルノフ検定を行って、入力リストが染色体上に均一に配置されているのか、偏りがあるのか調べている。random samplingは、ゲノムからランダムに遺伝子を抽出してたまたま近傍に位置している可能性と比較した結果になる。Document参照。

染色体に沿って、分析対象の遺伝子と、特定されたクラスターが視覚化される。最大6つのセグメントまで同時表示される。

f:id:kazumaxneo:20191106002153p:plain

染色体は垂直の線で全て同じ長さで表される。遺伝子はドットで表示される。プリロードされたゲノムの場合、ラベルから対応するデータベース（Ensembl、FlyBase、WormBase、またはSGD）にリンクしている。

引用

Cluster Locator, online analysis and visualization of gene clustering
Flavio Pazos Obregón, Pablo Soto, José Luis Lavín, Ana Rosa Cortázar, Rosa Barrio, Ana María Aransay, Rafael Cantera
Bioinformatics, Volume 34, Issue 19, 01 October 2018, Pages 3377–3379