macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

OrthoFinderでオルソロググループを探索する

 

リファレンスのタンパク質情報を元に、オーソロガスなタンパク質を見つけたり、その系統樹を描いてくれるツール。 de novo transcriptome解析のアノテーション時にも用いられている。

 

公式のGithubにとても丁寧な説明があるので、そちらをご覧ください。 

OrthoFinder/OrthoFinder-manual.pdf at master · davidemms/OrthoFinder · GitHub

簡単に言えば、blastを全部のfaaファイルに対して実行して(BLAST all-versus-all)、それでオーソロガスなタンパク質を検出している。そのため、比較するfaaファイルの数に応じて計算時間が累乗で増えていく。

 

 

 

 

インストール

依存

  • fastme #ここからbinaryダウンロード。
chmod u+x fastme-2.1.5/binaries/fastme-2.1.5-osx #実行権
mv fastme-2.1.5-osx fastme #rename
#パスを通すかパスが通っている場所に移動。
  • pythonの依存 #ない人だけ
pip install numpy
pip install Shapely
pip install Matplotlib
#dlcpar-1.0.tarを解凍して中に入る。
sudo python setup.py install
  • MCL
brew install MCL

 

本体はbrewで導入できる。

brew install OrthoFinder

 

OrthoFinder Github (ソースコードにexampleデータもあり)

https://github.com/davidemms/OrthoFinder/releases

 

OrthoFinder公式サイト

http://www.stevekellylab.com/software/orthofinder

 

 

ラン

 ソースコードの中のテストデータを実行。4生物のタンパク質データ (.faa) がある。

orthofinder.py -f ExampleDataset/ -t 8

Statistics_Overall.csvに結果がまとめられている。 

kazumaxneo$ column -t -s',' Results_Aug01/Statistics_Overall.csv |head -20

Number of genes 2733

Number of genes in orthogroups 1938

Number of unassigned genes 795

Percentage of genes in orthogroups 70.9

Percentage of unassigned genes 29.1

Number of orthogroups 536

Number of species-specific orthogroups 7

Number of genes in species-specific orthogroups 102

Percentage of genes in species-specific orthogroups 3.7

Mean orthogroup size 3.6

Median orthogroup size 4.0

G50 (assigned genes) 4

G50 (all genes) 4

O50 (assigned genes) 199

O50 (all genes) 298

Number of orthogroups with all species present 278

Number of single-copy orthogroups 254

Date 2017-08-01

Orthogroups file Orthogroups.csv

Unassigned genes file Orthogroups_UnassignedGenes.csv

 2733遺伝子のうち1938でオルソログが見つかったと出ている。

(全遺伝子数を数えるなら grep -n ">" ExampleDataset/* |wc -l 

 

計算時間は、-t 8をつけてバクテリアのfaaファイル5つで30分くらい(5x5=25)かかった。

 

 

 

今後使う予定なので、その時にまた追記します。

 

 

 

引用

OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy.

David M. Emms and Steven Kelly.

Genome Biol. 2015; 16(1): 157. Published online 2015 Aug 6.

 

OrthoFinder の使い方 - Qiita

 

OrthoFinderを用いたOrthologous解析 - Qiita