macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

機械学習と意味的類似性によってGene Ontologyのアノテーションを行う CrowdGO

 

 ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多様である。個々のアルゴリズムからのコンセンサスとコンフリクトを評価するメタ予測は、機能的な注釈を強化することを可能にするはずである。

 メタアプローチの利点を活用するために、本著者らはオープンソースのコンセンサスベースのGene Ontology(GO)termメタ予測器であるCrowdGOを開発し、GO termの意味的類似性と情報量を持つ機械学習モデルを採用した。各遺伝子項アノテーションを再評価することにより、高スコアの確信アノテーションと低スコアのリジェクトされたアノテーションからなるコンセンサスデータセットが生成される。深層学習ベース、配列類似度ベース、2つのタンパク質ドメインベースの手法の結果にCrowdGOを適用することで、精度と再現性が向上したコンセンサスアノテーションを実現する。さらに、標準的な評価指標を使用すると、CrowdGOのパフォーマンスは、コミュニティで最もパフォーマンスの高い個々の手法と一致した。

 CrowdGOは、個々の予測因子の長所を活用し、包括的で正確な遺伝子機能アノテーションを作成するためのモデルインフォームドアプローチを提供する。CrowdGOはPython3で実装されており、Snakemakeワークフローと事前学習済みモデルとともに、https://gitlab.com/mreijnders/CrowdGO から自由に利用することができる。

 

 

インストール

condaで環境を作ってテストした。

GitLab

mamba create -n crowdgo python=3.9 -y
conda activate crowdgo
mamba install -c bioconda diamond -y
mamba install -c bioconda hmmer -y
mamba install -c bioconda snakemake -y

git clone https://gitlab.com/mreijnders/CrowdGO.git
cd CrowdGO/
python setup.py install

#依存関係が正しく入らなかったので導入
pip install pyasn1
pip install google-auth-oauthlib==0.4.6
pip install gast==0.4.0
pip install flatbuffers==1.12

 

データベース

wget https://apollo.vital-it.ch/trackvis/crowdgo/large_data.tar.gz
tar -xvzf large_data.tar.gz
diamond makedb --in tools/deepgoplus/data/training_data.fasta --db tools/deepgoplus/data/train_data.dmnd
cd databases
wget https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gunzip uniprot_sprot.fasta.gz
diamond makedb --in uniprot_sprot.fasta --db uniprot_sprot
wget http://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
gunzip Pfam-A.hmm.gz
hmmpress Pfam-A.hmm

 

テストラン

snakemake --cores 1 -s CrowdGO.snakefile

終了すると、example_outputディレクトリに結果が表示される。

 

ランするとエラーになる。logと出力ディレクトリを見る限り、途中までは上手くランできるが、作業ディレクトリのfunfam-hmm3-v4_2_0.libを参照するステップでエラーが発生している。

引用

CrowdGO: machine learning and semantic similarity guided consensus Gene Ontology annotation
Maarten J.M.F. Reijnders,  Robert M. Waterhouse

bioRxiv, Posted July 17, 2021