macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンパク質構造検索・アライメントアルゴリズム Reseek

 

 アミノ酸配列からのタンパク質フォールド予測における最近のブレークスルーは、新しい構造の洪水を解き放った。タンパク質空間への洞察を広げ、生物工学や治療法への実用化を追求する新たな機会をもたらすと同時に、新たな課題も提示している。それと同時に、タンパク質の検索・解析アルゴリズムに新たな課題を突きつけている。ここでは、タンパク質アライメントアルゴリズムReseekについて述べる。DALI、TM-align、Foldseekなどの最新手法と比較して、タンパク質のホモログ検出の感度を2倍に向上させ、従来の最速手法であったFoldseekよりも速度を向上させた。Reseek は、タンパク質骨格の各残基を85,899,345,920(〜10^11)の異なる状態からなる新しい「メガアルファベット」の文字で表される配列のアラインメントに基づいている。コードは https://github.com/rcedgar/reseekにある。

 

 

インストール

リリースからreseek_linux_1.3-betaをダウンロードしてテストした。

Github

#source
git clone https://github.com/rcedgar/reseek.git
cd reseek/src/
make

> ./reseek_linux_1.3-beta 

reseek v1.0.i86linux64 [e4d3866]
(C) Copyright 2024 Robert C. Edgar

All-vs-all alignment (excluding self-hits)
    reseek -search STRUCTS -output hits.tsv -mode MODE

Search query against database
    reseek -search Q_STRUCTS -db DB_STRUCTS -mode MODE -output hits.tsv

Align two structures
    reseek -search NAME1.pdb -db NAME2.pdb -aln aln.txt

Output options for -search
   -aln FILE     # Alignments in human-readable format
   -output FILE  # Hits in tabbed text format with 8 fields:
                 #   Evalue Query Target
                 # (More output formats coming soon)

Search and alignment options
  -mode MODE     # veryfast|fast|sensitive (default fast)
  -evalue E      # Max E-value (default no max)
  -omega X       # Omega accelerator (floating-point)
  -minu U        # K-mer accelerator (integer)
  -gapopen X     # Gap-open penalty (floating-point >= 0, default 1.1)
  -gapext X      # Gap-extend penalty (floating-point >= 0, default 0.14)
  -dbsize D      # Effective database size for E-value (default actual size)
  -usort         # U-sort accelerator (default off)
  -maxaccepts N  # If U-sort, max hits <= E-value (default 1)
  -maxrejects N  # If U-sort, max hits > E-value (default 32)

Convert PDB file(s) to .cal (C-alpha) format
    reseek -pdb2cal STRUCTS -output structs.cal

STRUCTS argument is one of:
   NAME.pdb      # PDB file (mmCIF support will be added soon)
   NAME.files    # Text file with PDB file/pathnames, one per line
   NAME.cal      # C-alpha (.cal) file, recommended for databases

 

 

実行方法

2つのPDBファイルをアラインする。

reseek -search NAME1.pdb -db NAME2.pdb -aln aln.txt

出力例

 

全対全アラインメント

reseek -search STRUCTS -output hits.tsv -mode fast
  • -mode    veryfast|fast|sensitive (default fast)

STRUCTS argument is one of:
・NAME.pdb      # PDB file (mmCIF support will be added soon)
NAME.files    # Text file with PDB file/pathnames, one per line
・NAME.cal      # C-alpha (.cal) file, recommended for databases

 

PDBをC-alphaフォーマットに変換する。

reseek -pdb2cal STRUCTS -output structs.cal

 

引用

Sequence alignment using large protein structure alphabets doubles sensitivity to remote homologs
Robert C. Edgar

bioRxiv, Posted May 27, 2024.

 

関連

https://kazumaxneo.hatenablog.com/entry/2023/07/07/031613

 

MEGA11

 

 MEGA(Molecular Evolutionary Genetics Analysis)ソフトウエアは、計算分子進化の手法とツールの大規模なコレクションを含むまでに成熟した。ここでは、MEGAを種、病原体、遺伝子ファミリーのタイムツリーを構築するための、より包括的なツールにするための新しい追加機能について述べる。分岐時間と信頼区間を推定する方法は、ノードデーティングの較正制約とチップデーティング解析の配列サンプリング日に確率密度を使用するために実装されている。これらの方法は、時空間サンプリング情報で配列にタグ付けする新しいオプション、拡張されたインタラクティブなノードキャリブレーションエディター、タイムツリーを表示する拡張ツリーエクスプローラーでサポートされている。また、多種の配列アラインメントを用いて、ある種の対立遺伝子の中立進化確率を推定するベイズ法と、系統における進化速度の自己相関を検定する機械学習法が追加された。最尤解析に必要なコンピュータのメモリは再プログラミングにより大幅に削減され、グラフィカル・ユーザー・インターフェースは非常に大きなデータセットに対応できるよう、より応答性とインタラクティブ性が向上した。これらの機能強化により、ユーザーエクスペリエンス、結果の質、生物学的発見のスピードが向上する。ネイティブにコンパイルされたグラフィカル・ユーザー・インターフェースおよびコマンドライン版のMEGA11は、Microsoft WindowsLinux、およびmacOS用として、www.megasoftware.netで利用できる。

 

manual

https://www.megasoftware.net/docs

 

インストール

https://www.megasoftware.net/

 

プラットフォームとGUI/CUIとバージョンを選択後、右端のDownloadからダウンロードする。

 

実行方法

多機能なソフトウェアなので、配列を読み込んで系統推定する流れだけ紹介します。

 

Windows11で起動したところ。

 

Align => Edit/Build Alignmentを選択

パネルが出てくるので、Retrieve from fileを選択して準備した配列ファイルを指定する。

 

Alignment explorerウィンドウが出てきて、配列ファイルが読み込まれた。このウィンドウ上で配列名を変更したり、トリミングしたりといった編集を行える。

クリックして配列を選択後、Alignment by ClustalXを選択(長い遺伝子だとかなり時間がかかる)、

 

パラメータを確認後、多重整列を実行する。

 

しばらく時間がかかる。

 

ちなみにジョブはバックグラウンドで走っているので、メインウィンドウで別の操作も実行できる。

 

全部の配列が整列された(前の画像から配列数を減らしている)。

 

このウィンドウ上でData => Phylogenetic Analysisを選択、 

 

あるいはメインパネルでPhylogenyを選択する。

(既に他のソフトウェアで多重整列とギャップが多い領域などのトリミングを実行済みの場合もここから始める)

 

樹形推定の方法を選択する。ここでは高速なNJを選択した。パラメータを指定して実行する。

最尤法。ブートストラップ法の選択、置換モデルの指定、Gamma分布などの指定など。

 

Tree Explorerパネルに結果が出力された。

 

枝をクリックして特定の系統だけcollapse(枝を潰して表示)する。あるいはcollapseされているtipを展開する。

Rootingの方法も、Midpoint rootや手動選択など選べる。

 

Fontや文字サイズはStatisticsから変更できる。

 

ブートストラップ法を選択している場合、ブートストラップサンプリングからのコンセンサスツリーも表示できる。

 

結果はimageからビットマップ画像やベクター形式の画像として出力できる。

 

Newick形式の系統樹として保存。

 

距離行列の作成

 

最適な置換モデルの探索

出力例

出版品質の表として出力される。略称は下に説明がある。

 

置換の尤度計算。画像下のスタイルの表が出力される。

 

祖先配列の推定(樹形推定結果後)

 

コメント

非常に簡単にだけ説明しました。詳しくはオンラインマニュアルを参考にして下さい。下に分かりやすく説明している動画のリンクも貼っておきます。

引用

MEGA11: Molecular Evolutionary Genetics Analysis Version 11
Koichiro Tamura, Glen Stecher, Sudhir Kumar

Mol Biol Evol. 2021 Jun 25;38(7):3022-3027.

 

参考

How to Construct a Phylogenetic Tree in MEGA 11: A Step-by-Step Guide


 

IQ-TREE 2

2024/06/24 誤字修正

 

2020年の論文

IQ-TREE(http://www.iqtree.org)は、最尤法を用いた系統推論を行うための、ユーザーフレンドリーで広く利用されているソフトウェアパッケージである。2014年にバージョン1をリリースして以来、本著者らはIQ-TREEを継続的に拡張し、ゲノムデータを扱うための配列進化の新しいモデルや系統推定の効率的な計算アプローチを多数統合してきた。ここでは、IQ-TREEバージョン2の特筆すべき機能について説明し、他のソフトウェアと比較した際の主な利点を強調する。

 

2015年の論文

大規模な系統学データセットでは、特に最尤(ML)系統樹のための高速な樹推定法が必要とされる。高速なプログラムも存在するが、最適な樹形を見つけるinherent heuristicsのため、最適なツリーが見つかっているかどうかは明らかではない。従って、MLツリーを見つけるために異なる探索戦略を採用し、同時に現在利用可能なMLプログラムと同程度に高速なアプローチを追加する必要がある。本著者らは、ヒルクライムアプローチとstochastic perturbation methodの組み合わせが時間効率よく実装できることを示す。RAxMLやPhyMLと同じCPU時間であれば、IQ-TREEは62.2%から87.1%より高い尤度を発見し、効率的にツリー空間を探索した。IQ-TREEの停止ルールを用いた場合、DNAアラインメントでは75.7%、47.1%、タンパク質アラインメントでは42.2%、100%でRAxMLとPhyMLの方が高速となる。しかし、IQ-TREEにより高い尤度が得られる範囲は73.3-97.1%に改善された。

 

Manual

http://www.iqtree.org/doc/

Beginner's Tutorial

http://www.iqtree.org/doc/Tutorial

Advanced Tutorial

http://www.iqtree.org/doc/Advanced-Tutorial

コマンドリファレンス

http://www.iqtree.org/doc/Command-Reference

 

v1系とv2以降ではコマンドが微妙に異なっています。ここではv2を簡単に紹介します。

インストール

Github

https://github.com/iqtree/iqtree2

#link(iqtreeと指定すると通常v2が導入される)
mamba install bioconda::iqtree -y

HPからもそれぞれのプラットフォームのバージョンのIQ-TREEをダウンロードできる。2024年現在v2.3.4となっている。

アクセスして、一番下にスクロールすると全プラットフォームのダウンロードリンクがある。

> iqtree2 -h

IQ-TREE multicore version 2.3.4 COVID-edition for Linux x86 64-bit built Jun  5 2024

Developed by Bui Quang Minh, James Barbetti, Nguyen Lam Tung, Olga Chernomor,

Heiko Schmidt, Dominik Schrempf, Michael Woodhams, Ly Trong Nhan, Thomas Wong

 

Usage: iqtree [-s ALIGNMENT] [-p PARTITION] [-m MODEL] [-t TREE] ...

 

GENERAL OPTIONS:

  -h, --help           Print (more) help usages

  -s FILE[,...,FILE]   PHYLIP/FASTA/NEXUS/CLUSTAL/MSF alignment file(s)

  -s DIR               Directory of alignment files

  --seqtype STRING     BIN, DNA, AA, NT2AA, CODON, MORPH (default: auto-detect)

  -t FILE|PARS|RAND    Starting tree (default: 99 parsimony and BIONJ)

  -o TAX[,...,TAX]     Outgroup taxon (list) for writing .treefile

  --prefix STRING      Prefix for all output files (default: aln/partition)

  --seed NUM           Random seed number, normally used for debugging purpose

  --safe               Safe likelihood kernel to avoid numerical underflow

  --mem NUM[G|M|%]     Maximal RAM usage in GB | MB | %

  --runs NUM           Number of indepedent runs (default: 1)

  -v, --verbose        Verbose mode, printing more messages to screen

  -V, --version        Display version number

  --quiet              Quiet mode, suppress printing to screen (stdout)

  -fconst f1,...,fN    Add constant patterns into alignment (N=no. states)

  --epsilon NUM        Likelihood epsilon for parameter estimate (default 0.01)

  -T NUM|AUTO          No. cores/threads or AUTO-detect (default: 1)

  --threads-max NUM    Max number of threads for -T AUTO (default: all cores)

 

CHECKPOINT:

  --redo               Redo both ModelFinder and tree search

  --redo-tree          Restore ModelFinder and only redo tree search

  --undo               Revoke finished run, used when changing some options

  --cptime NUM         Minimum checkpoint interval (default: 60 sec and adapt)

 

PARTITION MODEL:

  -p FILE|DIR          NEXUS/RAxML partition file or directory with alignments

                       Edge-linked proportional partition model

  -q FILE|DIR          Like -p but edge-linked equal partition model

  -Q FILE|DIR          Like -p but edge-unlinked partition model

  -S FILE|DIR          Like -p but separate tree inference

  --subsample NUM      Randomly sub-sample partitions (negative for complement)

  --subsample-seed NUM Random number seed for --subsample

 

LIKELIHOOD/QUARTET MAPPING:

  --lmap NUM           Number of quartets for likelihood mapping analysis

  --lmclust FILE       NEXUS file containing clusters for likelihood mapping

  --quartetlh          Print quartet log-likelihoods to .quartetlh file

 

TREE SEARCH ALGORITHM:

  --ninit NUM          Number of initial parsimony trees (default: 100)

  --ntop NUM           Number of top initial trees (default: 20)

  --nbest NUM          Number of best trees retained during search (defaut: 5)

  -n NUM               Fix number of iterations to stop (default: OFF)

  --nstop NUM          Number of unsuccessful iterations to stop (default: 100)

  --perturb NUM        Perturbation strength for randomized NNI (default: 0.5)

  --radius NUM         Radius for parsimony SPR search (default: 6)

  --allnni             Perform more thorough NNI search (default: OFF)

  -g FILE              (Multifurcating) topological constraint tree file

  --fast               Fast search to resemble FastTree

  --polytomy           Collapse near-zero branches into polytomy

  --tree-fix           Fix -t tree (no tree search performed)

  --treels             Write locally optimal trees into .treels file

  --show-lh            Compute tree likelihood without optimisation

  --terrace            Check if the tree lies on a phylogenetic terrace

 

ULTRAFAST BOOTSTRAP/JACKKNIFE:

  -B, --ufboot NUM     Replicates for ultrafast bootstrap (>=1000)

  -J, --ufjack NUM     Replicates for ultrafast jackknife (>=1000)

  --jack-prop NUM      Subsampling proportion for jackknife (default: 0.5)

  --sampling STRING    GENE|GENESITE resampling for partitions (default: SITE)

  --boot-trees         Write bootstrap trees to .ufboot file (default: none)

  --wbtl               Like --boot-trees but also writing branch lengths

  --nmax NUM           Maximum number of iterations (default: 1000)

  --nstep NUM          Iterations for UFBoot stopping rule (default: 100)

  --bcor NUM           Minimum correlation coefficient (default: 0.99)

  --beps NUM           RELL epsilon to break tie (default: 0.5)

  --bnni               Optimize UFBoot trees by NNI on bootstrap alignment

 

NON-PARAMETRIC BOOTSTRAP/JACKKNIFE:

  -b, --boot NUM       Replicates for bootstrap + ML tree + consensus tree

  -j, --jack NUM       Replicates for jackknife + ML tree + consensus tree

  --jack-prop NUM      Subsampling proportion for jackknife (default: 0.5)

  --bcon NUM           Replicates for bootstrap + consensus tree

  --bonly NUM          Replicates for bootstrap only

  --tbe                Transfer bootstrap expectation

 

SINGLE BRANCH TEST:

  --alrt NUM           Replicates for SH approximate likelihood ratio test

  --alrt 0             Parametric aLRT test (Anisimova and Gascuel 2006)

  --abayes             approximate Bayes test (Anisimova et al. 2011)

  --lbp NUM            Replicates for fast local bootstrap probabilities

 

MODEL-FINDER:

  -m TESTONLY          Standard model selection (like jModelTest, ProtTest)

  -m TEST              Standard model selection followed by tree inference

  -m MF                Extended model selection with FreeRate heterogeneity

  -m MFP               Extended model selection followed by tree inference

  -m ...+LM            Additionally test Lie Markov models

  -m ...+LMRY          Additionally test Lie Markov models with RY symmetry

  -m ...+LMWS          Additionally test Lie Markov models with WS symmetry

  -m ...+LMMK          Additionally test Lie Markov models with MK symmetry

  -m ...+LMSS          Additionally test strand-symmetric models

  --mset STRING        Restrict search to models supported by other programs

                       (raxml, phyml, mrbayes, beast1 or beast2)

  --mset STR,...       Comma-separated model list (e.g. -mset WAG,LG,JTT)

  --msub STRING        Amino-acid model source

                       (nuclear, mitochondrial, chloroplast or viral)

  --mfreq STR,...      List of state frequencies

  --mrate STR,...      List of rate heterogeneity among sites

                       (e.g. -mrate E,I,G,I+G,R is used for -m MF)

  --cmin NUM           Min categories for FreeRate model [+R] (default: 2)

  --cmax NUM           Max categories for FreeRate model [+R] (default: 10)

  --merit AIC|AICc|BIC  Akaike|Bayesian information criterion (default: BIC)

  --mtree              Perform full tree search for every model

  --madd STR,...       List of mixture models to consider

  --mdef FILE          Model definition NEXUS file (see Manual)

  --modelomatic        Find best codon/protein/DNA models (Whelan et al. 2015)

 

PARTITION-FINDER:

  --merge              Merge partitions to increase model fit

  --merge greedy|rcluster|rclusterf

                       Set merging algorithm (default: rclusterf)

  --merge-model 1|all  Use only 1 or all models for merging (default: 1)

  --merge-model STR,...

                       Comma-separated model list for merging

  --merge-rate 1|all   Use only 1 or all rate heterogeneity (default: 1)

  --merge-rate STR,...

                       Comma-separated rate list for merging

  --rcluster NUM       Percentage of partition pairs for rcluster algorithm

  --rclusterf NUM      Percentage of partition pairs for rclusterf algorithm

  --rcluster-max NUM   Max number of partition pairs (default: 10*partitions)

 

SUBSTITUTION MODEL:

  -m STRING            Model name string (e.g. GTR+F+I+G)

                 DNA:  HKY (default), JC, F81, K2P, K3P, K81uf, TN/TrN, TNef,

                       TIM, TIMef, TVM, TVMef, SYM, GTR, or 6-digit model

                       specification (e.g., 010010 = HKY)

             Protein:  LG (default), Poisson, cpREV, mtREV, Dayhoff, mtMAM,

                       JTT, WAG, mtART, mtZOA, VT, rtREV, DCMut, PMB, HIVb,

                       HIVw, JTTDCMut, FLU, Blosum62, GTR20, mtMet, mtVer, mtInv, FLAVI,

                        Q.LG, Q.pfam, Q.pfam_gb, Q.bird, Q.mammal, Q.insect, Q.plant, Q.yeast

     Protein mixture:  C10,...,C60, EX2, EX3, EHO, UL2, UL3, EX_EHO, LG4M, LG4X

              Binary:  JC2 (default), GTR2

     Empirical codon:  KOSI07, SCHN05

   Mechanistic codon:  GY (default), MG, MGK, GY0K, GY1KTS, GY1KTV, GY2K,

                       MG1KTS, MG1KTV, MG2K

Semi-empirical codon:  XX_YY where XX is empirical and YY is mechanistic model

      Morphology/SNP:  MK (default), ORDERED, GTR

      Lie Markov DNA:  1.1, 2.2b, 3.3a, 3.3b, 3.3c, 3.4, 4.4a, 4.4b, 4.5a,

                       4.5b, 5.6a, 5.6b, 5.7a, 5.7b, 5.7c, 5.11a, 5.11b, 5.11c,

                       5.16, 6.6, 6.7a, 6.7b, 6.8a, 6.8b, 6.17a, 6.17b, 8.8,

                       8.10a, 8.10b, 8.16, 8.17, 8.18, 9.20a, 9.20b, 10.12,

                       10.34, 12.12 (optionally prefixed by RY, WS or MK)

      Non-reversible:  STRSYM (strand symmetric model, equiv. WS6.6),

                       NONREV, UNREST (unrestricted model, equiv. 12.12)

                       NQ.pfam, NQ.bird, NQ.mammal, NQ.insect, NQ.plant, NQ.yeast

           Otherwise:  Name of file containing user-model parameters

 

STATE FREQUENCY:

  -m ...+F             Empirically counted frequencies from alignment

  -m ...+FO            Optimized frequencies by maximum-likelihood

  -m ...+FQ            Equal frequencies

  -m ...+FRY           For DNA, freq(A+G)=1/2=freq(C+T)

  -m ...+FWS           For DNA, freq(A+T)=1/2=freq(C+G)

  -m ...+FMK           For DNA, freq(A+C)=1/2=freq(G+T)

  -m ...+Fabcd         4-digit constraint on ACGT frequency

                       (e.g. +F1221 means f_A=f_T, f_C=f_G)

  -m ...+FU            Amino-acid frequencies given protein matrix

  -m ...+F1x4          Equal NT frequencies over three codon positions

  -m ...+F3x4          Unequal NT frequencies over three codon positions

 

RATE HETEROGENEITY AMONG SITES:

  -m ...+I             A proportion of invariable sites

  -m ...+G[n]          Discrete Gamma model with n categories (default n=4)

  -m ...*G[n]          Discrete Gamma model with unlinked model parameters

  -m ...+I+G[n]        Invariable sites plus Gamma model with n categories

  -m ...+R[n]          FreeRate model with n categories (default n=4)

  -m ...*R[n]          FreeRate model with unlinked model parameters

  -m ...+I+R[n]        Invariable sites plus FreeRate model with n categories

  -m ...+Hn            Heterotachy model with n classes

  -m ...*Hn            Heterotachy model with n classes and unlinked parameters

  --alpha-min NUM      Min Gamma shape parameter for site rates (default: 0.02)

  --gamma-median       Median approximation for +G site rates (default: mean)

  --rate               Write empirical Bayesian site rates to .rate file

  --mlrate             Write maximum likelihood site rates to .mlrate file

 

POLYMORPHISM AWARE MODELS (PoMo):

  -s FILE              Input counts file (see manual)

  -m ...+P             DNA substitution model (see above) used with PoMo

  -m ...+N<POPSIZE>    Virtual population size (default: 9)

  -m ...+WB|WH|S]      Weighted binomial sampling

  -m ...+WH            Weighted hypergeometric sampling

  -m ...+S             Sampled sampling

  -m ...+G[n]          Discrete Gamma rate with n categories (default n=4)

 

COMPLEX MODELS:

  -m "MIX{m1,...,mK}"  Mixture model with K components

  -m "FMIX{f1,...fK}"  Frequency mixture model with K components

  --mix-opt            Optimize mixture weights (default: detect)

  -m ...+ASC           Ascertainment bias correction

  --tree-freq FILE     Input tree to infer site frequency model

  --site-freq FILE     Input site frequency model file

  --freq-max           Posterior maximum instead of mean approximation

 

TREE TOPOLOGY TEST:

  --trees FILE         Set of trees to evaluate log-likelihoods

  --test NUM           Replicates for topology test

  --test-weight        Perform weighted KH and SH tests

  --test-au            Approximately unbiased (AU) test (Shimodaira 2002)

  --sitelh             Write site log-likelihoods to .sitelh file

 

ANCESTRAL STATE RECONSTRUCTION:

  --ancestral          Ancestral state reconstruction by empirical Bayes

  --asr-min NUM        Min probability of ancestral state (default: equil freq)

 

TEST OF SYMMETRY:

  --symtest               Perform three tests of symmetry

  --symtest-only          Do --symtest then exist

  --symtest-remove-bad    Do --symtest and remove bad partitions

  --symtest-remove-good   Do --symtest and remove good partitions

  --symtest-type MAR|INT  Use MARginal/INTernal test when removing partitions

  --symtest-pval NUMER    P-value cutoff (default: 0.05)

  --symtest-keep-zero     Keep NAs in the tests

 

CONCORDANCE FACTOR ANALYSIS:

  -t FILE              Reference tree to assign concordance factor

  --gcf FILE           Set of source trees for gene concordance factor (gCF)

  --df-tree            Write discordant trees associated with gDF1

  --scf NUM            Number of quartets for site concordance factor (sCF)

  --scfl NUM           Like --scf but using likelihood (recommended)

  -s FILE              Sequence alignment for --scf

  -p FILE|DIR          Partition file or directory for --scf

  --cf-verbose         Write CF per tree/locus to cf.stat_tree/_loci

  --cf-quartet         Write sCF for all resampled quartets to .cf.quartet

 

ALISIM: ALIGNMENT SIMULATOR

 

Usage: iqtree --alisim <OUTPUT_PREFIX> [-m MODEL] [-t TREE] ...

 

  --alisim OUTPUT_ALIGNMENT Activate AliSim and specify the output alignment filename

  -t TREE_FILE              Set the input tree file name

  --length LENGTH           Set the length of the root sequence

  --num-alignments NUMBER   Set the number of output datasets

  --seqtype STRING          BIN, DNA, AA, CODON, MORPH{NUM_STATES} (default: auto-detect)

                            For morphological data, 0<NUM_STATES<=32

  --m MODEL_STRING          Specify the evolutionary model. See Manual for more detail

  --mdef FILE               Name of a NEXUS model file to define new models (see Manual)

  --fundi TAXA_LIST,RHO     Specify a list of taxa, and Rho (Fundi weight) for FunDi model

  --indel <INS>,<DEL>       Set the insertion and deletion rate of the indel model,

                            relative to the substitution rate

  --indel-size <INS_DIS>,<DEL_DIS> Set the insertion and deletion size distributions

  --sub-level-mixture       Enable the feature to simulate substitution-level mixture model

  --no-unaligned            Disable outputing a file of unaligned sequences

                            when using indel models

  --root-seq FILE,SEQ_NAME  Specify the root sequence from an alignment

  -s FILE                   Specify the input sequence alignment

  --no-copy-gaps            Disable copying gaps from input alignment (default: false)

  --site-freq <OPTION>      Specify the option (MEAN (default), or SAMPLING, or MODEL)

                            to mimic the site-frequencies for mixture models from

                            the input alignment (see Manual)

  --site-rate <OPTION>      Specify the option (MEAN (default), or SAMPLING, or MODEL)

                            to mimic the discrete rate heterogeneity from

                            the input alignment (see Manual)

  -t RANDOM{MODEL,NUM_TAXA} Specify the model and the number of taxa to generate a random tree

  -rlen MIN MEAN MAX        Specify three numbers: minimum, mean and maximum branch lengths

                            when generating a random tree

  -p FILE                   NEXUS/RAxML partition file

                            Edge-linked proportional partition model

  -q FILE                   Like -p but edge-linked equal partition model

  -Q FILE                   Like -p but edge-unlinked partition model

  --distribution FILE       Supply a definition file of distributions,

                            which could be used to generate random model parameters

  --branch-distribution DIS Specify a distribution, from which branch lengths of the input trees

                            are randomly generated and overridden.

  --branch-scale SCALE      Specify a value to scale all branch lengths

  --single-output           Output all alignments into a single file

  --write-all               Enable outputting internal sequences

  --seed NUM                Random seed number (default: CPU clock)

                            Be careful to make the AliSim reproducible,

                            users should specify the seed number

  -gz                       Enable output compression but taking longer running time

  -af phy|fasta             Set the output format (default: phylip)

  User Manual is available at http://www.iqtree.org/doc/alisim

 

ANALYSIS WITH GENTRIUS ALGORITHM:

  --gentrius FILE      File must contain either a single species-tree or a set of subtrees.

  -pr_ab_matrix FILE   Presence-absence matrix of loci coverage.

  -s FILE              PHYLIP/FASTA/NEXUS/CLUSTAL/MSF alignment file(s)

  -p FILE              NEXUS/RAxML partition file

  -g_stop_t NUM        Stop after NUM species-trees were generated, or use 0 to turn off this stopping rule. Default: 1MLN trees.

  -g_stop_i NUM        Stop after NUM intermediate trees were visited, or use 0 to turn off this stopping rule. Default: 10MLN trees.

  -g_stop_h NUM        Stop after NUM hours (CPU time), or use 0 to turn off this stopping rule. Default: 7 days.

  -g_non_stop          Turn off all stopping rules.

  -g_query FILE        Species-trees to test for identical set of subtrees.

  -g_print             Write all generated species-trees. WARNING: there might be millions of trees!

  -g_print_lim NUM     Limit on the number of species-trees to be written.

  -g_print_induced     Write induced partition subtrees.

  -g_print_m           Write presence-absence matrix.

  -g_rm_leaves NUM     Invoke reverse analysis for complex datasets.

 

TIME TREE RECONSTRUCTION:

  --date FILE          File containing dates of tips or ancestral nodes

  --date TAXNAME       Extract dates from taxon names after last '|'

  --date-tip STRING    Tip dates as a real number or YYYY-MM-DD

  --date-root STRING   Root date as a real number or YYYY-MM-DD

  --date-ci NUM        Number of replicates to compute confidence interval

  --clock-sd NUM       Std-dev for lognormal relaxed clock (default: 0.2)

  --date-no-outgroup   Exclude outgroup from time tree

  --date-outlier NUM   Z-score cutoff to remove outlier tips/nodes (e.g. 3)

  --date-options ".."  Extra options passing directly to LSD2

  --dating STRING      Dating method: LSD for least square dating (default)

 

実行方法

実行するには、多重整列されたPHYLIPフォーマットかFASTAフォーマット、あるいはNEXUS/CLUSTAL/MSFの配列を準備する必要がある。

IQ-treeチュートリアルより

 

IQ-TREEを実行するには、多重整列された配列セットを指定する。オプションなしだと、デフォルト設定での最尤推定が行われる。

#PHYLIP
iqtree2 -s example.phy

#FASTA
iqtree2 -s example.fa
  • -s     PHYLIP/FASTA/NEXUS/CLUSTAL/MSF alignment file(s)
  • --seqtype      BIN, DNA, AA, NT2AA, CODON, MORPH (default: auto-detect)

 

置換モデルを選択する。

iqtree2 -s example.phy -m GTR+G

Substitution models

http://www.iqtree.org/doc/Substitution-Models

 

データに対してどのモデルが適切かわからない場合は、ModelFinder を使用して最適なモデルを選択できる。ModelFinder Plus : MFPは、AIC(Akaike Information Criterion)、BIC(Bayesian Information Criterion)に基づいて、モデルの適合度と複雑さを評価し、最適な置換モデルを選択する。

iqtree2 -s example.phy -m MFP


ModelFinder Plusを使ってデータに最適なモデルを選び、近似的に最適なモデルを組み合わせてさらにデータに適合する進化モデルを作成する(近いモデルを統合して新しい複合モデルを作成)

iqtree2 -s example.phy -m MFP+MERGE

 

すべてのモデルについて完全なツリー推論を行う(高負荷)

iqtree -s example.phy -m MFP+MERGE --mtree 
  • --mtree    Perform full tree search for every model

 

最適なスレッド数を自動で決定、ただし割り当てられるCPUコアの上限は32に設定。

iqtree -s example.phy -T AUTO --threads-max 32  
  • -T    No. cores/threads or AUTO-detect (default: 1)
  • --threads-max   Max number of threads for -T AUTO (default: all cores)

 

ブートストラップ法を実行。

iqtree2 –s example.phy -b 100

 

ランダムにポジション列を選択後、ノンパラメトリックに初期ツリー構築から計算が繰り返されるのでかなり時間がかかる。

 

 

超高速ブートストラップ近似を実行(UFBoot 2は標準的な手順よりも桁違いに速い)。

iqtree2 –s example.phy –B 1000 #v1系なら-bb 1000

UFBootでは、支持率が≧ 95%の場合のみ、そのクレードを信じ始めるべき。BS%とUFBoot%を直接比較すべきではない(マニュアルより)。

(モデルが収束するまで繰り返し、1000を指定したなら最大1000回ということ)

 

-alrt(Approximate Likelihood-Ratio Test)を追加して枝の支持率を評価する。aLRTを1000回繰り返す。

 iqtree -s example.phy -B 1000 -alrt 1000

SH like aLRT検定(paper)では、各ブランチには、SH-aLRTとUFBootのサポートが割り当てられる。通常、SH-aLRT >= 80%、UFboot >= 95%であれば、そのクレードを信頼し始めてよい(マニュアルより)。

 

深刻なモデル違反によるブランチサポートの過大評価を防ぐため、各ブートストラップツリーをさらに最適化

iqtree -s example.phy -B 1000 -bnni

 

アウトグループを指定

iqtree -s example.phy –o Lizard

(IQ-TREEは与えられた配列の生物学的背景について何も知らない。IQ-TREEは、アラインメントで最初に出現する配列をroot部分にツリーを描画する)

 

全プロセスをやり直す。

iqtree -s example.phy --redo

 

全プロセスを独立に複数回実行する。-vでよりたくさんのログメッセージを表示する。

iqtree -s example.phy --runs 3 -v
  • --runs    Number of indepedent runs (default: 1)
  •  -v    Verbose mode, printing more messages to screen

 

IQ-TREEは自動で樹形推定プロセスを進めるため、ログを読むことが重要(.logとしてファイル保存されている)

勉強会用の資料を貼っておきます。

 

IQ-treeにはDiscussion forumが作成されており(old version)、そこでたくさんディスカッションされています。

https://github.com/iqtree/iqtree2/discussions

 

コメント

IQ-treeは樹形推定で煩雑なプロセスを自動で高速実行でき、人気のツールとなっていますが、それゆえ知識がないと現在の生命史とは矛盾するようなツリーも作りがちです。ログを読んだり樹形の信頼性を見るのはもちろんのこと、先行研究とよく比較する事も重要かと思います。遺伝子のツリーでも生命のツリーでも同様です。

 

その他

  • 定期的にチェックポイントファイル example.phy.ckp.gzがディスクに書き込まれる。このチェックポイントファイルは、中断された実行を再開するために使用される。
  • IQtreeは実行されると最初にアライメント内のすべての配列について組成カイ二乗検定を実行する。その目的は、文字構成(DNAの場合はヌクレオチド、タンパク質配列の場合はアミノ酸など)の均一性をテストすることにある(#197)。文字組成がアラインメントの平均組成から著しく逸脱している場合、その配列は不合格と判定される(例;sequences failed composition chi2 test (p-value<5%; df=3))。この検定は、データセットの問題点を突き止めるのに役立つ探索的なツールとして組み込まれている。通常、デフォルトでは失敗した配列を削除することはないだろうが、もしツリーが予期しないトポロジーを示すなら、この検定は問題の起源の方向を示すかもしれない。パーティションによる複数遺伝子からなるデータがある場合、パーティション分析で各遺伝子のパーティションごとに別々にテストする方が合理的かもしれない(遺伝子によって異なる進化の歴史や特徴を持っている可能性画あるという意味と考えられる)。タンパク質データである場合、配列に沿って異なるアミノ酸組成を考慮したいくつかのタンパク質混合モデル、例えばC10からC60プロファイル混合モデルを試すこともできる(こちらからそのまま引用)。

引用

IQ-TREE 2: New Models and Efficient Methods for Phylogenetic Inference in the Genomic Era 
Bui Quang Minh, Heiko A Schmidt, Olga Chernomor, Dominik Schrempf, Michael D Woodhams, Arndt von Haeseler, Robert Lanfear
Molecular Biology and Evolution, Volume 37, Issue 5, May 2020, Pages 1530–1534

 

IQ-TREE: A Fast and Effective Stochastic Algorithm for Estimating Maximum-Likelihood Phylogenies
Lam-Tung Nguyen, Heiko A. Schmidt, Arndt von Haeseler, and Bui Quang Minh

Molecular Biology and Evolution. 2015 Jan; 32(1): 268–274.

 

ModelFinder: fast model selection for accurate phylogenetic estimates

Subha Kalyaanamoorthy, Bui Quang Minh, Thomas K F Wong, Arndt von Haeseler & Lars S Jermiin 
Nature Methods volume 14, pages587–589 (2017)

 

Ultrafast Approximation for Phylogenetic Bootstrap 
Bui Quang Minh, Minh Anh Thi Nguyen, Arndt von Haeseler
Molecular Biology and Evolution, Volume 30, Issue 5, May 2013, Pages 1188–1195

 

参考

http://www.tezuru-mozuru.com/?cat=200

 

NCBI BLASTのClusteredNR database

 

近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、非常に近縁な生物種から得られた同じ種類のタンパク質が結果の大部分を占めることがある。しかし、BLASTサーチでは、必ずしもクエリの配列に近い情報の重要性が高いわけではない。クエリの配列とは進化的に遠かったり、少しだけ似ている別の機能を持った配列の情報を取得することが重要な事も多い。BLAST実行前にヒット数を増やしてジョブを投げればより遠縁なヒットも得られるが、NCBI BLASTはリソース制限を行っており、制限を超えたジョブは途中で止まってしまう。また、ヒット数が増える事は抜本的な解決にはなっておらず、却って視認性を悪くしてしまう。

NCBI ClusteredNRデータベースは、2022年に登場した、MMseqs2を用いて類似した配列をクラスタリングして得られた、冗長性を減らしたNRデータベースとなっている。各クラスタには互いに90%以上同一で、最長の配列長の90%以内の長さのタンパク質が含まれている。 2024年現在でもExperimental だが、データベースをクラスタリングすることで、元のデータベースに含まれる生物やタンパク質の多様性をよりよく表現したデータベースとなっていて、検索にかかる時間も短くなってるなど、状況によってはデフォルトのNRデータベースより扱いやすい。通常のBLASTとは結果の見方が異なるので、使い方を簡単に確認しておきます。

 

NCBI insights

https://ncbiinsights.ncbi.nlm.nih.gov/2022/05/02/clusterednr_1/

 

webサービス

NCBI BLASTPかBLASTXにアクセスする。

 

Choose search set => Experimental databaseでClusteredNRを選択する。

Organisumの欄で指定することで、BLASTサーチの対象範囲を特定の分類のみに制限できる。制限するには、生物の一般名、属名+種小名の二命名法、またはNCBI taxIDで指定する。

 

ここではE.coliの60S ribosomal protein L21(link)のアミノ酸配列を使用した。パラメータはデフォルトとした。

 

出力例

通常のBLAST結果と異なり、結果はクラスターごとにまとめられる。

 

クラスタの情報として、アノテーションの充実した代表タンパク質の情報が表示されている。

クラスタは90%以上同一で、最長の配列長の90%以内の長さでクラスタリングしているので、複数の生物(種)の配列が含まれる場合がある。

 

右端のPer identityの列を見ると、トップヒットが100%、次が91%となっていて冗長なヒットが抑制されていることが分かる。

 

例えば上の画像の3つ目のヒットには 8 members, 58 organismとある。クリックすると、そのクラスタに含まれる配列の情報が表示される。

 

このパネルの右上のボタンから、全配列をダウンロードできる。

また、クラスターの全メンバーのMSAを実行したり、含まれる配列に対してBLASTのジョブを投げたりもできる。

 

8配列含まれるクラスタへのBLAST結果(BLAST alignmentボタン)

 

多重整列結果

 

クラスタは事前定義されており、探索は高速に実行できます。クエリと類似した配列を集めてきたい時にも便利だと思います。

引用

Database resources of the national center for biotechnology information
Eric W Sayers, Evan E Bolton, J Rodney Brister, Kathi Canese, Jessica Chan, Donald C Comeau, Ryan Connor, Kathryn Funk, Chris Kelly, Sunghwan Kim, Tom Madej, Aron Marchler-Bauer, Christopher Lanczycki, Stacy Lathrop, Zhiyong Lu, Francoise Thibaud-Nissen, Terence Murphy, Lon Phan, Yuri Skripchenko, Tony Tse, Jiyao Wang, Rebecca Williams, Barton W Trawick, Kim D Pruitt, Stephen T Sherry

Nucleic Acids Res. 2022 Jan 7;50(D1):D20-D26. doi:0.1093/nar/gkab1112.

 

 

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

 

 生物の分子進化の歴史を理解するには、通常、近縁種や系統のゲノム領域を視覚的に比較する必要がある。このタスクを達成するためのアプリケーションはすでにいくつか存在するが、それらは古すぎたり、限定的すぎたり、あるいは複雑すぎたりして、ほとんどのユーザーのニーズには合わない。GenoFigは、原核生物のゲノム領域を視覚化するためのグラフィカルなアプリケーションであり、可能な限り使いやすく、様々なニーズに適応できる柔軟性を意図している。GenoFigは、正規表現を用いて、GenBankファイルから抽出されたアノテーションを、配列間で一貫した方法でパーソナライズされた形で表現することができる。また、配列間の相同領域の表示を最適化するユニークなオプションや、配列のGCパーセンテージやGC-skew表現のような、より古典的な機能も提供する。要約すると、GenoFigは、原核生物における特定のゲノム領域の進化を探索し、出版に耐えうる図を作成するための、シンプルで、無料で、高度に設定可能なツールである。Genofigは、GPL 3.0ライセンスのもと、https://forgemia.inra.fr/public-pgba/genofigで利用できる。

 

インストール

ubuntu22でcondaで環境を作ってテストした。レポジトリではリリース1.1のWindows版とMacOS版のコンパイル済みバージョンのダウンロードリンクも用意されている。

Github

git clone https://forgemia.inra.fr/public-pgba/genofig.git
cd genofig/
#linux
mamba env create -f extras/requirements.yml
conda activate genofig
extras/SETUP.sh #link
#windows (WSLではない)
mamba env create -f extras/requirements_windows.yml


#パスを通す
export PATH="'$(pwd)':$PATH"
#or,
echo 'export PATH="'$(pwd)':$PATH"' >> ~/.bashrc && source ~/.bashrc

> Genofig


GenoFigはGenBankフォーマットのアノテーションを使う。GenoFigは小さなゲノム領域(せいぜい数百Kbp)を比較するように設計されているので、ゲノム全体を読み込むには向いていない。数個の遺伝子や遺伝子クラスターなどを可視化する。

 

チュートリアルではNCBI nucleotideから遺伝子フィーチャーを可視化して、比較したい領域をGenBankでダウンロードしている。

GenBankは左端のプラスのボタンから読み込む。

 

CREATE FIGURE ボタンを押すと視覚化されてSVG形式で保存される。

アノテーションがついているCDSは灰色のボックスでプロットされる。例外として、アノテーションが hypothetical proteinsは白色のボックスでプロットされる。

 

特定のCDSだけ色を変更できる。Featureタブに移動し、プラスマークで新しいfeatureを追加、type列で色を変更したいCDSアノテーション名(同じ名前だと一括して適用される)を入力し、productを選択、さらに右の方のcolorで色を指定する。

視覚化すると色が変更された。フィルターは正規表現をサポートしているので、柔軟に特定のfeatureだけ強調したりできる。

 

レポジトリで紹介されている代表的な機能を見ていく。

 

配列タブでreverseにチェックを入れると全ての矢印の向きが反転する(全体が反転するのではなく、個々のfeatureが180度回転する)。

SequencesタブのBとIをチェックして左端のラベルを太字と斜体にする。

 

Sequencesタブの左端のラベルの色を緑にして、さらにtypeをorganismにして生物名がラベルされるようにする。

 

Sequencesタブの左端のラベルのサイズを20に下げる。

Sequencesタブには、他にもラベルの位置やサイズ、幅などを細かく調整できるようになっている。

 

ラベルがはみ出さないように、上のパネルで左側のマージンを400に増やす。

 

2つ目の配列を追加した。

 

ラベルが被っている。ほとんどのフィーチャーは同じなので、Sequencesタブの右端近くのfeat.label列のGeneralのチェックをはずし、最初の配列にだけチェックを入れる。

一番上のgenbank配列にのみアノテーションが表示された。

 

Featuresタブの右端の方のlabel列のチェックを特定のフィーチャー以外は外した。

 

Homologies パネルでRun blastnを実行し、それから描画した。

配列間の相同なCDSシンテニーで示される(すべての配列間でBLASTnが実行されるため配列数が多い時は注意)。画像では、上下は同じ配列のため、全領域にシンテニーが見つかっている。

 

レジェンドタブで凡例が表示されるようにする。サイズはスケール係数で、場所はpositonで指定できる。

カスタムした設定はsaveから保存できるが、 そのApplicationメニューが正しく表示されないという問題が発生しているらしい。試した時は表示されなかった(M1 macでrosetta2使用)。

 

レポジトリでは情報が整理されてずっと綺麗な作図がされています。確認して下さい。

引用

GenoFig: a user-friendly application for the visualisation and comparison of genomic regions 

Maxime Branger,   Sébastien O Leclercq

Bioinformatics, Published: 13 June 2024

 

関連

遺伝子クラスターを比較してインタラクティブな図で視覚化する clinker

細菌・古細菌の環状ゲノムプロットを出力する GenoVi

 

タンパク質の機能的アノテーションを行う AnnoPRO

 

 タンパク質の機能アノテーションは生物科学における長年の課題の一つであり、様々な計算手法が開発されてきた。しかし、既存の方法では、GOファミリーの数が多く、アノテーションされたタンパク質が少ないという深刻なロングテール問題に悩まされている。そこで、配列に基づくマルチスケールタンパク質表現、事前学習によるデュアルパスタンパク質エンコーディング、長期短期記憶に基づくデコーディングによる機能アノテーションを可能にする、AnnoPROと名付けられた革新的な戦略を構築した。様々なベンチマークに基づくケーススタディを実施し、AnnoPROが利用可能な手法の中で優れた性能を持つことを確認した。ソースコードとモデルは https://github.com/idrblab/AnnoPROhttps://zenodo.org/records/10012272にあり、自由に利用できる。

 

手順

step 1: 入力タンパク質のシーケンス
step 2: Profeatによる特徴抽出
step 3: 特徴の対距離計算 --> cosine, correlation, jaccard
Step4: 特徴の2次元埋め込み --> umap, tsne, mds
step5: 特徴の格子配置 --> grid, scatter
Step6: 変換 --> minmax, standard

インストール

ubuntu22でcondaで環境を作ってテストした(RTX3090使用)。

Github

git clone https://github.com/idrblab/AnnoPRO.git
cd AnnoPRO
conda create -n annopro python=3.8
conda activate annopro
pip install .

> annopro -h

usage: annopro [-h] [--fasta_file FASTA_FILE] [--output OUTPUT] [--used_gpu USED_GPU] [--disable_diamond] [--overwrite] [--version]

 

Arguments for AnnoPRO

 

optional arguments:

  -h, --help            show this help message and exit

  --fasta_file FASTA_FILE, -i FASTA_FILE

                        The protein sequences file

  --output OUTPUT, -o OUTPUT

                        Output directory

  --used_gpu USED_GPU   GPU device selected, default is CPU

  --disable_diamond     Disable blast with diamond

  --overwrite           Overwrite existed output

  --version             Show version

 

 

実行方法

タンパク質のfastaファイルを指定する。配列名に特殊文字が含まれているとエラーを起こす可能性があるので注意する。

annopro -i test_proteins.fasta -o output
  • --used_gpu     GPU device selected, default is CPU

初回はモデルダウンロードに時間がかかる。試した時は、1度目は途中で止まり、2度目は1時間ほどでダウンロードできた。

 

出力例

result.csvが最終出力となる。Gene OntologyのBP、MF、CCのカテゴリに分けて3つのファイルとして出力されている。

 

> csvlook cc_result.csv |head -n 20

1列目:タンパク質名、2列目:GO term、3列目:スコア

 

レポジトリのexample下にも出力ファイル例がある。

https://github.com/idrblab/AnnoPRO/tree/main/example

引用

AnnoPRO: a strategy for protein function annotation based on multi-scale protein representation and a hybrid deep learning of dual-path encoding

Lingyan Zheng, Shuiyang Shi, Mingkun Lu, Pan Fang, Ziqi Pan, Hongning Zhang, Zhimeng Zhou, Hanyu Zhang, Minjie Mou, Shijie Huang, Lin Tao, Weiqi Xia, Honglin Li, Zhenyu Zeng, Shun Zhang, Yuzong Chen, Zhaorong Li & Feng Zhu 

Genome Biology volume 25, Article number: 41 (2024) 

 

関連

https://kazumaxneo.hatenablog.com/entry/2024/04/15/004855

 

生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するウェブツール Comparative Genome Dashboard

 

 Comparative Genome Dashboardは、生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するためのウェブベースのソフトウェアツールである。このツールは細胞機能のハイレベルなグラフィカルな調査を提供し、興味のあるサブシステムをより詳細に調べるためにドリルダウン(注;データのレベルを掘り下げてさらに詳細を調べる操作)することを可能にする。比較ダッシュボードの最も高いレベルには、生合成、エネルギー代謝、輸送、刺激に対する応答などの細胞システムのパネルが含まれている。各パネルには、そのパネルのサブシステムのセットについての各生物の化合物または遺伝子産物の数をプロットした棒グラフのセットが含まれている。ユーザーは、興味のあるサブシステムにフォーカスするためにインタラクティブにドリルダウンし、各生物によって生成または消費される化合物のグリッド、特定のGO termの割り当て、パスウェイダイアグラム、およびより詳細な比較ページへのリンクを見ることができる。例えば、ダッシュボードでは、一組の生物が合成できる補酵素、輸送できる金属イオン、DNA損傷修復能力、バイオフィルム形成遺伝子、ウイルス応答タンパク質を比較することができる。このダッシュボードにより、ユーザーは様々な詳細レベルでの包括的な比較を素早く行うことができる。

 

BioCyc Guided Tour (2023)

https://youtu.be/t3xuKH7_Txo?si=Uw4jkzwOzit1GLNt

 

HPより

Comparative Genome Dashboardは、それぞれのゲノムとパスウェイのアノテーションによってコードされる、生物または生物群の全体的な生物学的能力を視覚化するためのツールである。全ての細胞システムの迅速な調査を容易にし、生物間の類似点と相違点を素早く特定することを可能にする。

webサービス

BioCyc web portal: https://biocyc.orgにアクセスする。

右上からアカウントを作ってログインする。すぐに作れる。

 

アクセスするには、上のToolsメニューからComparative Genome Dashboard(右端の上から2つ目)を選択する。 

 

Comparative Genome Dashboardに入ったら、比較する生物を選ぶウィンドウが出てくる。

このウィンドウで生物を選択する。数が多いと表示が遅くなるため、10以下に留めることが推奨されている。

画像では細菌を選んでいるが、真核生物も選べる(ヒトなど)。

 

ダッシュボード・データの生成には1~2分かかる。

 

出力例

 

(マニュアルより)ゲノムダッシュボードは、分解/利用/同化といった細胞システムを表すパネルで構成されている。その構成は、オミックスダッシュボード(オミックスデータを可視化するツール:https://biocyc.org/dashboard/dashboard-intro.shtml?orgid=ECOLI)と同じである。各代謝パネルには独自のY軸があり、各生物によって分解または利用された代謝物の総数を示している。異なる色のプロットは生物に対応している(画像では5つの生物)。

代謝物のカウントは、その生物に存在する代謝経路の有無に基づいている(ゲノムアノテーションの質に依存)。

 

代謝物ではないパネルでは、棒グラフはそのシステムにアノテーションされた遺伝子数を表している。

 

プロットをクリックすると、そのサブシステムを構成するサブシステムについての新しいパネルが表示される。Cofactor Synをクリックした。

出てきたサブパネルをさらにクリックすると、各代謝物の代謝の有無を示したタイル状のプロットが表示される。

 

行は代謝物(文脈によって合成、分解、輸送)またはその他の生物学的能力を表し、列は生物を表す。

この例のように、検索後の初期パネルでは代謝物の数だけ表示されていたが、クリックしてドリルダウンする事で、どの代謝物の合成や分解が可能であるのかを詳しく調べる事ができるように設計されている。

(注;上の図のボックスは、その生物のデータベースに該当する合成パスウェイが1つ以上含まれている場合のみ色が付けられている(複数のバリアント経路が定義されている場合があることに注意)。色の薄いボックスは、その生物に経路が存在すると予測されたとしても1つ以上の経路の穴があることを示している。色が薄いほど欠けている経路の割合が大きい。)

 

棒グラフやカラーボックスにマウスカーソルを合わせると、化合物名とその化合物および生物に関連するすべてのパスウェイがリストアップされたウィンドウが表示される。

 

カラーボックスをクリックすると、その生物での該当する化合物の代謝に関連するすべてのバリアント経路のパスウェイ図表示される。

パスウェイ図の化合物をクリックすると詳細を確認できる。

 

また、サブパネルのカラーパネルの上でカーソルをホバーするとshow pathway comparisonが出てくる。これをクリックすると、

新しいウィンドウで、生物名(行)と遺伝子の象限として(それぞれの象限には構造式か遺伝子名)、その代謝反応の有無を比較できる。

 

ここからBIOCYCにジャンプしてどのような反応であるかを詳しく調べることが出来る。原核生物でオペロンになっているならオペロン構造なども調べられる。

 

検索後のトップページ(ゲノムダッシュボード)上部にある2つの検索ボタン:Search Compound/Pathway/GO-Term ボタンをクリックすると、化合物やパスウェイ、GO termの名前を入力して検索し、該当するパスウェイが比較している生物のどのカテゴリーに存在するのか調べられる。ヒットした場合、ここから該当するパスウェイに素早くアクセスできる。



 

その他・マニュアルより

  • 生物の生物学的性質を反映するだけでなく、ダッシュボードに表示される機能はゲノムアノテーションの質に依存する。
  •  化合物名の上、または色の付いていないボックスの上にマウスを置くと、ツールチップに詳細なパスウェイ比較ページへのリンクが表示され、違いが実際の生物学的根拠を持つ可能性が高いのか、またはアノテーションやパスウェイ予測の質の違いによる人工物なのかを評価するのに役立つ。
  • オプション・メニューには、その他のコマンドも用意されている。これには、パネルの内容をSVGまたはPNG画像ファイルにエクスポートする機能、比較表ページまたはダウンロード可能なデータテーブルを生成する機能などが含まれている。トップレベルのパネルについては、指定されたパネルを非表示にするコマンドもある(ページ下部のボタンで非表示のパネルを復元できる)。メイン表示ページから、パネルのタイトルをマウスでつかみ、希望の位置までドラッグすることで、トップレベルパネルの並び替えもできる。

  • 通化合物およびユニーク化合物の数を表示する、オプションを有効にすると、サブシステムのプロットを横切る黒いバーは、すべての生物(隠れた生物を含む)に共通する化合物の数を示す。分析が2つ以上の生物を含む場合、白いバーは、少なくとも1つの他の生物と共有する化合物の数(バーの下)と、その生物に固有の化合物の数(バーの上)の両方を示す。

  • Organism Preferencesセクションでは、ダッシュボードでの各生物の表示方法をカスタマイズできる。生物を選択的に非表示または表示したり、ラベルや色を編集したり、並べ替えたりできる。1つまたは複数の生物を選択的に非表示にするには、対応するボックスのチェックを外します。これにより、表示から生物のみが非表示になる。

 

コメント

アクセスできない時はメンテナンス中である可能性があります。

引用

The Comparative Genome Dashboard

Suzanne Paley, Ron Caspi, Paul O’Maille, Peter D. Karp

bioRxiv, posted June 12, 2024