macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(ヒトゲノム)遺伝子の変異プロットを描く Lollipops

2020 4/22 重複した説明を削除

 

 簡潔な可視化は、大量の情報を最小限のスペースで迅速に解釈できるよう提示するために非常に重要である。精密医療における臨床応用は、解釈の時間依存性のため、重要な使用例となっているが、生命科学の分野では可視化の必要性が高まっている。この論文では、パネルシークエンシングやエクソームシークエンシングの結果を表示するためのLollipopsソフトウェアについて説明する。ソースコードとバイナリは https://github.com/pbnjay/lollipops で自由に入手できる。Lollipop Figureを作成するためのソフトウェアやウェブリソースは他にも存在するが、精密医療の要求は、ワークフローに簡単に適合し、手動で介入することなく外部情報を取り込む能力を必要とし、これらのパッケージは臨床応用にはあまり適していない。

 Lollipopソフトウェアは、公式の遺伝子記号と突然変異リストのみ必要とするシンプルなコマンドラインインターフェースを提供し、簡単にスクリプト化することができる。外部情報は、公開されているUniprotとPfamのリソースを使用して統合されている。ヒューリスティックは、最も情報量の多い成分を選択し、簡潔なプロットを出力する。結果は柔軟性のあるScalable Vector Graphic (SVG)ダイアグラムで、Webページやグラフィックイラストレーションツールで表示することができる。

 自動データフェッチャーは、非技術的なユーザーにとってツールの使いやすさの重要な部分である。識別子のトランスレーションとそれに続くタンパク質ドメインの検索という2つのフェーズで動作する。まず、HGNC Gene Symbol(唯一の必須パラメータ)を取得し、Uniprot REST APIに問い合わせて、一致するUniprot/SwissProt Accessionを返す。その後、フェッチされたアクセッションを使用して、PfamグラフィックドメインREST APIエンドポイントにクエリを行う。Pfamレスポンスデータには、キュレーションされたPfam-Aドメイン、関心のある領域(シグナルペプチド、膜貫通ドメインなど)、およびコイルドコイル、無秩序領域、低複雑性領域などの構造的に興味深い予測領域のための有用なアノテーションが含まれている。この情報は抽出され、データハイライターとプレゼンテーション手法に渡される。データハイライターは、複雑な情報を視覚的に解釈しやすくするための簡単なテクニックを網羅している。(以下略)

 

インストール

リリースからmacos向けのバイナリをダウンロードしてテストした。

> ./lollipops

$ ./lollipops 

Usage: ./lollipops [options] {-Q UNIPROT_DB IDENTIFER | -U UNIPROT_ID | GENE_SYMBOL} [PROTEIN CHANGES ...]

 

Protein ID input:

  GENE_SYMBOL is the official human HGNC gene symbol. This will use the

  UniprotKB API to lookup the UNIPROT_ID.

 

  You can provide a UniProt ID directly with -U (e.g. "-U P04637" for TP53)

 

  For more advanced usage, query UniprotKB's database mappings directly using

  a supported identifier with -Q DBNAME. Available DBNAMEs can be found here:

     http://www.uniprot.org/help/programmatic_access#id_mapping_examples

 

     RefSeq ID        e.g. -Q P_REFSEQ_AC NP_001265252.1

     Entrez GeneID    e.g. -Q P_ENTREZGENEID 4336

     Ensembl ID       e.g. -Q ENSEMBL_ID ENSG00000168314

 

Protein changes:

  Currently only point mutations are supported, and may be specified as:

 

    <AMINO><CODON><AMINO><#COLOR><@COUNT>

 

  Only CODON is required, and AMINO tags are not parsed.

 

  Synonymous mutations are denoted if the first AMINO tag matches the second

  AMINO tag, or if the second tag is not present. Otherwise the non-synonymous

  mutation color is used. The COLOR tag will override using the #RRGGBB style

  provided. The COUNT tag can be used to scale the lollipop marker size so that

  the area is exponentially proportional to the count indicated. Examples:

 

    R273C            -- non-synonymous mutation at codon 273

    T125@5           -- synonymous mutation at codon 125 with "5x" marker sizing

    R248Q#00ff00     -- green lollipop at codon 248

    R248Q#00ff00@131 -- green lollipop at codon 248 with "131x" marker sizing

 

  (N.B. color must come before count in tags)

 

Diagram generation options:

  -legend                 draw a legend for colored regions

  -syn-color="#0000ff"    color to use for synonymous mutation markers

  -mut-color="#ff0000"    color to use for non-synonymous mutation markers

  -hide-axis              do not draw the amino position x-axis

  -show-disordered        draw disordered regions on the backbone

  -show-motifs            draw simple motif regions

  -labels                 draw label text above lollipop markers

  -no-patterns            use solid fill instead of patterns (SVG only)

  -domain-labels=fit      hot to apply domain labels (default="truncated")

                            "fit" = only if fits in space available

                            "off" = do not draw text in the domains

 

Output options:

  -o=filename.png         set output filename (.png or .svg supported)

  -w=700                  set diagram pixel width (default = automatic fit)

  -dpi=300                set DPI (PNG output only)

 

Alternative input sources:

  -uniprot                use UniprotKB as an alternative to Pfam for

                          fetching domain/motif information

  -l=filename.json        use local file instead of Pfam API for graphic data

                            see: http://pfam.xfam.org/help#tabview=tab9

パスの通ったディレクトリに移動しておく。

 

 

実行方法

動作時はネットに繋がっている必要がある。

 

与える遺伝子名はHGNC(human gene nomenclature)の命名法に従う一意な遺伝子名になる。TP53遺伝子のバリアントR273C R175H T125 R248Qを表示。

lollipops TP53 R273C R175H T125 R248Q

出力

f:id:kazumaxneo:20200421195341p:plain

 

バリアントの上にラベルを付ける。またレジェンドを表示する。

lollipops -legend -labels TP53 R273C R175H T125 R248Q
  • -legend   draw a legend for colored regions
  • -labels     draw label text above lollipop markers

f:id:kazumaxneo:20200421204729p:plain

  

 

デフォルトでは同義置換は青(上のT125など)、非同義置換(上のR273Cなど)は赤になっている。色は16進数カラーコードで指定する事で変更できる。またシンボルの大きさも変更できる。

R248Qは#7f3333で(=> R248Q#7f3333)、R273Cは5倍の大きさで表示する(=> R273C@5)。

lollipops -legend -labels TP53 R248Q#7f3333 R273C@5

 

f:id:kazumaxneo:20200421210844p:plain

引用
Lollipops in the Clinic: Information Dense Mutation Plots for Precision Medicine.

Jay JJ, Brouwer C

PLoS One. 2016 Aug 4;11(8)

 

参考


 

関連