ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多様である。個々のアルゴリズムからのコンセンサスとコンフリクトを評価するメタ予測は、機能的な注釈を強化することを可能にするはずである。
メタアプローチの利点を活用するために、本著者らはオープンソースのコンセンサスベースのGene Ontology(GO)termメタ予測器であるCrowdGOを開発し、GO termの意味的類似性と情報量を持つ機械学習モデルを採用した。各遺伝子項アノテーションを再評価することにより、高スコアの確信アノテーションと低スコアのリジェクトされたアノテーションからなるコンセンサスデータセットが生成される。深層学習ベース、配列類似度ベース、2つのタンパク質ドメインベースの手法の結果にCrowdGOを適用することで、精度と再現性が向上したコンセンサスアノテーションを実現する。さらに、標準的な評価指標を使用すると、CrowdGOのパフォーマンスは、コミュニティで最もパフォーマンスの高い個々の手法と一致した。
CrowdGOは、個々の予測因子の長所を活用し、包括的で正確な遺伝子機能アノテーションを作成するためのモデルインフォームドアプローチを提供する。CrowdGOはPython3で実装されており、Snakemakeワークフローと事前学習済みモデルとともに、https://gitlab.com/mreijnders/CrowdGO から自由に利用することができる。
Check out the revamped manuscript for "CrowdGO: machine learning and semantic similarity guided consensus Gene Ontology annotation": https://t.co/gzTpTg9uJj. Predicting GO terms by combining existing open-source prediction tools.
— Maarten Reijnders (@mjmfreijnders) March 29, 2021
インストール
condaで環境を作ってテストした。
GitLab
mamba create -n crowdgo python=3.9 -y
conda activate crowdgo
mamba install -c bioconda diamond -y
mamba install -c bioconda hmmer -y
mamba install -c bioconda snakemake -y
git clone https://gitlab.com/mreijnders/CrowdGO.git
cd CrowdGO/
python setup.py install
#依存関係が正しく入らなかったので導入
pip install pyasn1
pip install google-auth-oauthlib==0.4.6
pip install gast==0.4.0
pip install flatbuffers==1.12
データベース
wget https://apollo.vital-it.ch/trackvis/crowdgo/large_data.tar.gz
tar -xvzf large_data.tar.gz
diamond makedb --in tools/deepgoplus/data/training_data.fasta --db tools/deepgoplus/data/train_data.dmnd
cd databases
wget https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz
gunzip uniprot_sprot.fasta.gz
diamond makedb --in uniprot_sprot.fasta --db uniprot_sprot
wget http://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
gunzip Pfam-A.hmm.gz
hmmpress Pfam-A.hmm
テストラン
snakemake --cores 1 -s CrowdGO.snakefile
終了すると、example_outputディレクトリに結果が表示される。
ランするとエラーになる。logと出力ディレクトリを見る限り、途中までは上手くランできるが、作業ディレクトリのfunfam-hmm3-v4_2_0.libを参照するステップでエラーが発生している。
引用
CrowdGO: machine learning and semantic similarity guided consensus Gene Ontology annotation
Maarten J.M.F. Reijnders, Robert M. Waterhouse
bioRxiv, Posted July 17, 2021