Search-Sifter - macでインフォマティクス

　タンパク質ファミリーデータベースは、タンパク質の機能を解剖しようとしている生物学者にとって重要なツールである。タンパク質ファミリーデータベースを運用する際には、何千もの既存のエントリと新しいファミリーの可能性を比較することが重要な作業となる。この比較は、あるタンパク質領域のコレクションが新しいファミリーを形成しているのか、既存のタンパク質ファミリーと重複しているのかを理解するのに役立つ。本論文では、この解析を、希望する速度に応じて調整可能な精度で実行し、インタラクティブな比較を可能にする方法について述べる。この方法は、MinHashアルゴリズムに基づいており、オリジナルのMinHash手法のJaccard指数ではなく、Jaccard含有率を計算するようにさらに拡張している。この方法をPfamタンパク質ファミリーデータベースでテストしたところ、Pfamにある17,000以上の既存ファミリーと新しいファミリーの可能性を1秒以内に比較することができ、精度の低下はほとんど見られなかった。
　タンパク質ファミリーデータベースは、タンパク質の機能を特定しようとする生物学者にとって重要なリソースである。タンパク質に見られるドメイン、モチーフ、その他の特徴は重要な組織構造を形成しており、興味のあるタンパク質に関する実験の設計や解釈に利用することができる。PfamやInterProのようなタンパク質ファミリーデータベースを操作するには、新しいファミリーを特定し、データベースに登録されているファミリーと比較する機能が必要である。この論文では、この比較を実行するための計算効率の良い方法について述べる。

タンパク質ファミリーデータベースは、一般的に配列プロファイルを用いて特定のファミリーを記述しており、多くの場合、隠れマルコフモデル（HMM）1の形をしている。プロファイルHMMは、ファミリーの多数の代表者の複数の配列のアラインメントを表現したものである。与えられた配列がファミリーのメンバーである可能性（すなわち、ファミリーの他のメンバーとの相同性を持つ可能性）は、このプロファイルHMMへのアラインメントの確率によって推定される。タンパク質ファミリーデータベースは、重複する配列プロファイルを減らしながら、可能な限り多くの配列空間をカバーする必要がある。これは、論文図１に示されている配列空間の理想化されたビューによって示されている。

　オーバーラップは、タンパク質配列中の特定の領域が複数の配列プロファイルに有意に一致する場合に発生する。この場合、2つの可能性がある。重複した一致があるタンパク質配列の領域が、配列プロファイルの一方または両方に対して偽陽性であるか、または配列プロファイルが相同性のあるファミリーを表しており、実際には単一ファミリーであるかのいずれかである。配列空間のカバレッジを最大化すると、重複の可能性が高まる。カバレッジを増加させるために追加された各配列プロファイルは、データベース内の既存のプロファイルHMMとオーバーラップする可能性がある。このようなオーバーラップは、HMM配列プロファイルが、それらが表現するファミリーの基本的な相同性の不完全なモデルであるという事実の結果である。

（一部省略）タンパク質の配列類似性検索は、クエリとなるタンパク質と類似した配列を持つタンパク質を特定するために使用される。2つのタンパク質が類似した配列を持つ場合、それらが進化的に関連していると推論されることがある。このようにして、配列類似性検索の結果は、クエリ配列に対する潜在的なホモログのセットを形成し、これをタンパク質ファミリーと考えることができる。重要な問題は、このタンパク質ファミリーが新規であるかどうかである。オーバーラップを十分に迅速にチェックすることができれば、ユーザーはそのファミリーが新規であることを警告し、Pfamに提出するように促すことができる。このオーバーラップチェックは、検索結果のインタラクティブな要素として表示されるように、1秒単位で高速に行う必要がある。

　全く新しいタンパク質のグループを見つける配列類似性検索に加えて、既存のファミリーのすべてのメンバーに加えて、タンパク質ファミリーデータベースにまだ分類されていないタンパク質が検索されることもある。これらのタンパク質が既存のファミリーのメンバーと本当に相同性があるならば、それらはファミリーのメンバーであるべきである。そのため、この検索は、既存のファミリーの優れたモデルをコードしている可能性がある。

　本論文で議論した方法を用いて、Pfamのファミリーとの重複検索を分析することにより、Pfamを改善しうる検索を迅速に特定することができる。これは、キュレーターがより迅速に新規ファミリーを特定するのに役立つだけでなく、配列検索の投稿から新規ユーザー推論ファミリーを特定するための道を開く可能性がある。

インストール

python3.7の仮想環境でテストした（ubuntu18.04にてcondaで作成した）。

依存

Search-Sifter requires Python 3.3 or greater. It's recommended that Search-Sifter is installed into a virtual environment.

Github

git clone https://github.com/bateman-research/search-sifter.git
cd search-sifter/
pip install .

> python -m searchsifter.scripts.generate_residue_hashes

# python -m searchsifter.scripts.generate_residue_hashes

/root/anaconda3/lib/python3.7/runpy.py:125: RuntimeWarning: 'searchsifter.scripts.generate_residue_hashes' found in sys.modules after import of package 'searchsifter.scripts', but prior to execution of 'searchsifter.scripts.generate_residue_hashes'; this may result in unpredictable behaviour

warn(RuntimeWarning(msg))

usage: generate_residue_hashes.py [-h] -n N -w WINDOWS [WINDOWS ...]

[-o OUTPUT_DIR] [-p PFAM_FILENAME]

[-t PFAM_FILE_TYPE]

generate_residue_hashes.py: error: the following arguments are required: -n, -w/--windows

実行方法

pfam配列のハッシュを作成

wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam32.0/Pfam-A.full.uniprot.gz
python -m searchsifter.scripts.generate_residue_hashes -n [hash length]
-w [window size(s)] -o [output directory] -p [path to Pfam file]
-t stockholm

エラーが起きる。修正できたら追記します。

引用

Rapid identification of novel protein families using similarity searches
Matt Jeffryes, Alex Bateman

Version 1. F1000Res. 2018; 7: ISCB Comm J-1975. Published online 2018 Dec 24.