macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

遺伝子名の識別を支援するウェブアプリケーション GeneToList

 

 オミックス技術を臨床医学やトランスレーショナル・メディシンに取り入れる動きが加速する中、これらの手法によって生成される大規模かつ複雑なデータセットを利用するエンドユーザーには課題がある。ゲノミクスにおける特別な課題は、遺伝子の命名法が大規模なゲノムデータベースや一般的に使用されている遺伝子解析ツール間で統一されていないことである。さらに、ピアレビューされた原稿を含む科学的なコミュニケーションにおいて、古い遺伝子命名法がまだ見受けられることがある。そこで、バイオインフォマティクスに精通していない研究者にも使いやすいインターフェイスを実現するために、遺伝子ID変換と別名照合を支援するウェブアプリケーションGeneToListを開発した。GeneToList は https://www.genetolist.com/ で公開されている。このツールはウェブアプリケーションで、多くの標準的なブラウザと互換性がある。

 生物医学研究におけるオミックス技術の普及は、データサイエンスの一分野であるバイオインフォマティクスの誕生につながった。これらの技術は研究にとって不可欠なものとなりつつあるが、これらの進歩の恩恵を受ける立場にあるすべての人が、プログラミング言語を習得し、バイオインフォマティシャンになる準備ができているわけではないことを認識することが重要である。また、次世代シーケンサーを用いたRNA配列解析のような手法で得られる無数の情報により、遺伝子やタンパク質の命名法を常に更新することが求められる。これらの手法によって生成された複雑なデータセットを扱い、利用可能な多くの遺伝子解析ツールを活用しようとすると、ある出力の形式と別の入力の必要性を一致させることが困難になる。さらに、時代遅れのゲノム命名法が査読付き論文の中に残っている。遺伝子識別子の変換を可能にするために多大な努力がなされているが、これらは通常、プログラミング言語(biomaRt, MyGene - https://mygene.info/, and org.Hs.eg.db)の高度な知識が必要である。その他、遺伝子IDの変換のためのユーザインタフェースを提供するウェブアプリケーションがいくつかある。しかし、この目的のための専用アプリケーション(DAVID - https://david.ncifcrf.gov/home.jsp)ではなく、より複雑で強力なツールの初期段階として意図されているものもある[ref.3]。また、専用アプリケーションでありながら、入力IDの種類や希望する出力など、特定のユーザー入力に依存しているものもあり、不慣れな科学者にとっては障壁となりうる(g:Convert - https://biit.cs.ut.ee/gprofiler/ and bioDBnet - https://biodbnet-abcc.ncifcrf.gov/db/db2db.php)。重要なことは、著者らは、特に廃止されたIDがあいまいな場合のエイリアスのマッチングを支援するツールを知らないことである。そこで、遺伝子IDの変換を支援し、大規模な遺伝子リストに適した高スループットで廃止された遺伝子IDを曖昧さなくするグラフィカルユーザインタフェースを持つウェブアプリケーションを作成することを目指した。

 

webサービス

https://www.genetolist.com/にアクセスする。

 

生物を選ぶ。ヒトやマウス・ラット以外に、34000以上の生物に対応している。

遺伝子情報は、NCBIのGene resourceから収集されており、古細菌、真菌、無脊椎動物、哺乳類および非哺乳類の脊椎動物、植物、原生動物、ウイルスなど、NCBIによって遺伝子情報が保存されているあらゆる分類群をサポートしている(論文より)。

 

遺伝子名をタイプする。サポートする遺伝子 ID データベースは、NCBI Gene Symbols、NCBI Gene ID (Entrez ID)、OMIM ID、HGNC ID、Ensembl ID、その他分類群固有の ID を含んでいる。複数入力する時はカンマまたは空白で区切る。ここでは論文と同じIL-8を検索する。IL-8はエイリアスの1つで、HGNCを確認するとHGNC公式遺伝子シンボルはCXCL8となっている。

Add To listをクリック。

完全に一致したものはFinal Listに直接追加される。さらに、大文字小文字の変更、ハイフネーション、ギリシャ文字の削除など、わずかな変更のみでマッチした場合は、「自動承認済み候補」としてマークされ、Final Listに追加される。より曖昧なtermは、遺伝子の同義語と比較され、一致する可能性があるものはFinal Listにマークされ、ユーザーの判断を待つ。

 

 

出力例

曖昧なtermは候補が表示されるので、アノテーションを見てどれが正しいか選ぶ。

 

結果はFinal Listに表示される。

CSVファイルとしてダウンロードできる。Excelで開いた。

 

validな遺伝子名がアサインされると、それを使って外部サービスで遺伝子セットエンリッチメント解析を行ったり、タンパク質相互作用(PPI)の解析を行う事ができる。

 

外部サービスに供する場合、左下のメニューのCopyボタンをクリックして、FinalListの遺伝子名をコピーすると便利。

 

引用

GeneToList: A web application to assist with gene identifiers for the non-bioinformatics-savvy scientist
Joshua D. Breidenbach, E. Francis Begue III, David J. Kennedy, Steven T. Haller

bioRxiv, Posted June 12, 2022

 

関連


参考

HGNCを使ってヒト遺伝子の正式略称(GeneSymbol)を検索する(+ヒトとマウスの遺伝子IDを変換する(統合TV)

doi.org/10.7875/togotv.2019.096