macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

大規模な遺伝子バリアントアノテーションのための統合的かつ対話的なプラットフォーム Annotation Query (AnnoQ)

 

 Annotation Query (AnnoQ) (http://annoq.org/)は、ヒトの遺伝子バリアントに対して包括的かつ最新の機能アノテーションを提供するために設計されている。このシステムは、Haplotype Reference Consortium (HRC) の約3900万個のヒトバリアントに、WGSAによる配列特徴アノテーションPANTHERGene Ontology (GO) およびパスウェイへの機能アノテーションを予め付与したアノテーションデータベースによってサポートされている。データベースは最適化されたElasticsearchフレームワーク上で動作し、リアルタイムの複雑な検索をサポートしている。この実装により、ユーザーは個別のツールを設定することなく、簡単なクエリで最新の機能アノテーションをデータに付与することができる。Webインターフェースにより、ユーザーはアノテーションの閲覧、バリアントのアノテーション、バリアントデータの検索を対話的に行うことができる。使いやすいインターフェースと検索機能は、ベンチサイエンティストや統計学者など、バイオインフォマティクスのスキルが低い研究者に適している。AnnoQは、ユーザーがプログラムによってデータにアクセスし、アノテーションを行うためのAPIも備えている。Rパッケージなど、プログラミング言語用のパッケージも用意されており、ユーザーがアノテーションクエリーをスクリプトに埋め込むことができる。AnnoQは、統合アノテーションプラットフォームとして、幅広いバックグラウンドや研究関心を持つ研究者に貢献できるだろう。

 

Tutorial

https://uscbiostats.github.io/annoq-site/docs/tutorials/ui-query


webサービス

AnnoQ

https://uscbiostats.github.io/annoq-site/docs/tutorials/ui-queryにアクセスする。

LAUNCH QUERY UIボタンを選択。

 

AnnoQのインタラクティブ探索画面に移動する。Queryパネル、結果パネル、結果サマリーパネルの3つのメインパネルで構成されている。

 

Query Panel では、クエリの種類を選択し、アノテーションを選択する。まず問い合わせする染色体座標を指定する。

染色体番号、開始位置、終了位置を指定。現在のリリースではhg19をサポートしている。

もしくはCHANGEボタンをクリックしてVCF ファイルをアップロードする(最大 10,000 variants)。結果の最初の50行のみが表示されるが、全結果はダウンロードすれば表示できる。

 

CHANGEボタンから遺伝子名やrsID(Reference SNP cluster ID)、もしくはキーワードでの問い合わせにも変更できる。キーワードの場合、遺伝子名、表現型名、GO term(例:Signaling by GPCR)を指定することができる。

遺伝子名の場合、遺伝子領域にあるすべてのバリアントが返される(現在、一度に照会できるのは1つの遺伝子のみ)。以下のIDタイプをサポートしている。Ensembl gene identifier、Ensembl protein identifier、Ensembl_TRS、EntrezGene IDs、Gene symbol、NCBI GI numbers、HUGO Gene Nomenclature ids(HGNC)、International Protein Index ids(IPI)、NCBI UniGene ids(UniGene)、:UniProt accession(UniProtKB)、UniProt ID(UniProtKB-ID)(リンク)。

 

次に問い合わせ内容を指定する。

データベースには400以上のアノテーションタイプが保存されている。ANNOVAR、VEP、SnpEff、PANTHERなど様々選べる。

 

disease relatedからはCOSMICやClinvar、GWAS catalogなどが選べる。

a

othersでも様々なデータベースを選べる。詳細は右端のinfoをクリックする。

 

basic infoにチェックを付けてみた。

 

下のsubmitをクリックすると右の結果パネルに結果が出力される。結果は表形式で各バリアントごとに1行ずつ表示される。最初の5列は、染色体番号、位置、参照塩基、代替アレル、rsID(ある場合)など、バリアントの基本的な情報を含んでいる。残りの列は、1.2で選択されたものに対応している(下の画像ではbasic infoしか選んでないので存在しない)。特定のアノテーションタイプに対して複数のアノテーションがある場合、各アノテーションはパイプ記号(" ")で区切られている。

 

結果をクリックすると詳細が表示される。

 

複数のデータベースを選択すると、結果のテーブルは横方向が非常に長くなる。

 

各列のListボタンをクリックすると結果を要約表示できる。

 

disease関連

 

左端のSTATSボタンでも同じ要約が可能。STATSボタンをクリック後、右上から要約する列を選択する。

 

Filterボタンからはフィルタリングができる。

 

configファイルは、ユーザーが選択したアノテーションを保存し、コマンドラインクエリーに使用したり、Rなどのプログラミングスクリプトに埋め込んで使用するために使う。configファイルを生成するには、下のExport Configボタンをクリックする。コマンドラインクエリーやプログラミングスクリプトでの使用方法についてはAnnoQRを参照。

 

引用

Annotation Query (AnnoQ): an integrated and interactive platform for large-scale genetic variant annotation 
Zhu Liu, Tremayne Mushayahama, Bryan Queme, Dustin Ebert, Anushya Muruganujan, Caitlin Mills, Paul D Thomas, Huaiyu Mi
Nucleic Acids Research, Volume 50, Issue W1, 5 July 2022, Pages W57–W65

 

関連