macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

公開メタゲノムに対する高速なアミノ酸配列の類似性検索サービス PZLAST

 

 公開されているメタゲノムデータに対するアミノ酸配列の類似性検索は、類似配列の環境分布に基づいて、配列の機能に関する洞察をユーザーに提供することができる。しかし、公開されているメタゲノムデータに対して配列の類似性検索を行うには、テラバイト以上の膨大なデータが必要となるため、データ量や結果の精度を大幅に下げる必要があった。ここでは、PZLASTと呼ばれる高精度なアミノ酸配列類似性検索のための超高速サービスを紹介する。PZLASTは、ユーザーのアミノ酸配列を数テラバイトの公開メタゲノム配列に対して約10-20分で検索することができる。PZLASTは、PEZY-SC2(Multiple Instruction Multiple Data メニーコアプロセッサ)を使用することで、その検索速度を実現している。PZLASTの検索結果は、オントロジーに基づいた類似配列の環境分布でまとめられる。PZLASTは、配列の機能を予測したり、機能的に重要な遺伝子配列のホモログを探したりするのに利用できる。PZLASTは、https://pzlast.riken.jp/metaで登録を必要とせず自由に利用できる。

 

PZLASTアルゴリズム

PZLASTは、MIMD(Multiple Instruction Multiple Data)メニーコアプロセッサであるPEZY-SC2を複数使用する。Single Instruction Multiple Dataプロセッサでは、すべてのスレッドが異なるデータに対して同じ命令を実行する。一方、MIMDプロセッサでは、各スレッドが異なるデータに対して異なる命令を実行する。このようなPEZY-SC2のMIMD機能は、PZLASTの様々な計算ステージを実現するのに適している。複数のPEZY-SC2にタスクを分散してデータを並列化し、PEZY-SC2の多数のスレッド(15872)を利用することで、高速な配列類似性検索を実現した。(以下略)

PZLASTの基準となるアミノ酸配列データは,MicrobeDB.jpデータベース(https://microbedb.jp)から取得した。MicrobeDB.jpのパイプラインでは、Prodigal のメタゲノムオプションを用いて、DDBJで公開されているメタゲノム配列のリードデータからタンパク質をコードする遺伝子を予測している。ショートリードのメタゲノム配列から遺伝子を予測することは時に困難であるため、この方法ではショートリードに含まれる一部の遺伝子が予測されない可能性がある。PZLASTの結果のヒット数が若干不足している可能性があるが、PZLASTは予測されたアミノ酸配列を参照して類似性検索を行う。リファレンスのアミノ酸配列データのサイズは約2.5テラバイト(423億配列中の約1.7兆個のアミノ酸)で、4339のショットガンメタゲノムサンプルから得られたものである。MicrobeDB.jpでは、Metagenome and Microbes Environmental Ontology (MEO) を用いて、各メタゲノムサンプルに採取された環境の情報が自動的にアノテーションされている。PZLASTリファレンスデータベースの全てのアミノ酸配列データとメタデータは、http://palaeo.nig.ac.jp/Resources/PZLAST/AASequences/ から入手できる。

 

ヘルプ

https://pzlast.riken.jp/meta/help_ja

Help

https://pzlast.riken.jp/meta/help

 

 

webサービス

https://pzlast.riken.jp/metaにアクセスする。

 

protein配列をアップロードする。サイズ、最大文字数、最大配列数、最大タンパク質配列長の制限があるので注意する。

f:id:kazumaxneo:20210816221606p:plain

(すべての入力配列が10 AA (アミノ酸残基) 以上 2,000 AA以下であること。入力配列の総数が10,000本以下であること。 すべての配列の長さの総和が100,000AA以下であること。可能な出力ヒット数が100万以下であること)。

マニュアルより

 

 

example出力を見てみる。

Table

f:id:kazumaxneo:20210810222307p:plain

Sample Content

f:id:kazumaxneo:20210810222352p:plain

MicrobeDBにリンクしている。

 

Metagenome and Microbes Environmental Ontology (MEO) Content

f:id:kazumaxneo:20210810222458p:plain

 

MEO Cloud

f:id:kazumaxneo:20210810222705p:plain

World map

f:id:kazumaxneo:20210810222725p:plain

 

Body Map

f:id:kazumaxneo:20210810223559p:plain

出力についてはhelpで説明されています。

https://pzlast.riken.jp/meta/help_ja

 

 

自分の扱っている細菌や古細菌の配列が、どのような環境に多く存在していそうなのか、世界のどの地域で採取されたのか(緯度経度のメタデータから)、素早く調べられるのはとても便利だと思います。アクセスしてみて下さい。

 

注意;今月20日にアップデートがあって、その後はアップデート前の結果にアクセスできなくなるようです。

引用

PZLAST: an ultra-fast amino acid sequence similarity search server against public metagenomes
Hiroshi Mori, Hitoshi Ishikawa, Koichi Higashi, Yoshiaki Kato, Toshikazu Ebisuzaki, Ken Kurokawa Author Notes
Bioinformatics, Published: 07 July 2021

 

参考

https://medit.tech/pzlast-an-ultra-fast-amino-acid-sequence-similarity-search-server/