2024-06-25

タンパク質構造検索・アライメントアルゴリズム Reseek

　アミノ酸配列からのタンパク質フォールド予測における最近のブレークスルーは、新しい構造の洪水を解き放った。タンパク質空間への洞察を広げ、生物工学や治療法への実用化を追求する新たな機会をもたらすと同時に、新たな課題も提示している。それと同時に、タンパク質の検索・解析アルゴリズムに新たな課題を突きつけている。ここでは、タンパク質アライメントアルゴリズムReseekについて述べる。DALI、TM-align、Foldseekなどの最新手法と比較して、タンパク質のホモログ検出の感度を2倍に向上させ、従来の最速手法であったFoldseekよりも速度を向上させた。Reseek は、タンパク質骨格の各残基を85,899,345,920(〜10^11)の異なる状態からなる新しい「メガアルファベット」の文字で表される配列のアラインメントに基づいている。コードは https://github.com/rcedgar/reseekにある。

(1/3) New protein structure alignment and search more accurate than DALI and faster than Foldseekhttps://t.co/Hsva6doYH5
— Robert Edgar (@RobertEdgarPhD) 2024年5月28日

インストール

リリースからreseek_linux_1.3-betaをダウンロードしてテストした。

Github

#source
git clone https://github.com/rcedgar/reseek.git
cd reseek/src/
make

> ./reseek_linux_1.3-beta

reseek v1.0.i86linux64 [e4d3866]
(C) Copyright 2024 Robert C. Edgar

All-vs-all alignment (excluding self-hits)
reseek -search STRUCTS -output hits.tsv -mode MODE

Search query against database
reseek -search Q_STRUCTS -db DB_STRUCTS -mode MODE -output hits.tsv

Align two structures
reseek -search NAME1.pdb -db NAME2.pdb -aln aln.txt

Output options for -search
-aln FILE # Alignments in human-readable format
-output FILE # Hits in tabbed text format with 8 fields:
# Evalue Query Target
# (More output formats coming soon)

Search and alignment options
-mode MODE # veryfast|fast|sensitive (default fast)
-evalue E # Max E-value (default no max)
-omega X # Omega accelerator (floating-point)
-minu U # K-mer accelerator (integer)
-gapopen X # Gap-open penalty (floating-point >= 0, default 1.1)
-gapext X # Gap-extend penalty (floating-point >= 0, default 0.14)
-dbsize D # Effective database size for E-value (default actual size)
-usort # U-sort accelerator (default off)
-maxaccepts N # If U-sort, max hits <= E-value (default 1)
-maxrejects N # If U-sort, max hits > E-value (default 32)

Convert PDB file(s) to .cal (C-alpha) format
reseek -pdb2cal STRUCTS -output structs.cal

STRUCTS argument is one of:
NAME.pdb # PDB file (mmCIF support will be added soon)
NAME.files # Text file with PDB file/pathnames, one per line
NAME.cal # C-alpha (.cal) file, recommended for databases

実行方法

２つのPDBファイルをアラインする。

reseek -search NAME1.pdb -db NAME2.pdb -aln aln.txt

出力例

全対全アラインメント

reseek -search STRUCTS -output hits.tsv -mode fast

-mode veryfast|fast|sensitive (default fast)

STRUCTS argument is one of:
・NAME.pdb # PDB file (mmCIF support will be added soon)
・NAME.files # Text file with PDB file/pathnames, one per line
・NAME.cal # C-alpha (.cal) file, recommended for databases

PDBをC-alphaフォーマットに変換する。

reseek -pdb2cal STRUCTS -output structs.cal

引用

Sequence alignment using large protein structure alphabets doubles sensitivity to remote homologs
Robert C. Edgar

bioRxiv, Posted May 27, 2024.

MEGA11

2021 Molecular Biology and Evolution multiple sequence alignment (MSA) phylogenetic tree Inference GUIツール分子系統樹 all versus all sequence comarison

　MEGA（Molecular Evolutionary Genetics Analysis）ソフトウエアは、計算分子進化の手法とツールの大規模なコレクションを含むまでに成熟した。ここでは、MEGAを種、病原体、遺伝子ファミリーのタイムツリーを構築するための、より包括的なツールにするための新しい追加機能について述べる。分岐時間と信頼区間を推定する方法は、ノードデーティングの較正制約とチップデーティング解析の配列サンプリング日に確率密度を使用するために実装されている。これらの方法は、時空間サンプリング情報で配列にタグ付けする新しいオプション、拡張されたインタラクティブなノードキャリブレーションエディター、タイムツリーを表示する拡張ツリーエクスプローラーでサポートされている。また、多種の配列アラインメントを用いて、ある種の対立遺伝子の中立進化確率を推定するベイズ法と、系統における進化速度の自己相関を検定する機械学習法が追加された。最尤解析に必要なコンピュータのメモリは再プログラミングにより大幅に削減され、グラフィカル・ユーザー・インターフェースは非常に大きなデータセットに対応できるよう、より応答性とインタラクティブ性が向上した。これらの機能強化により、ユーザーエクスペリエンス、結果の質、生物学的発見のスピードが向上する。ネイティブにコンパイルされたグラフィカル・ユーザー・インターフェースおよびコマンドライン版のMEGA11は、Microsoft Windows、Linux、およびmacOS用として、www.megasoftware.netで利用できる。

manual

https://www.megasoftware.net/docs

インストール

https://www.megasoftware.net/

プラットフォームとGUI/CUIとバージョンを選択後、右端のDownloadからダウンロードする。

実行方法

多機能なソフトウェアなので、配列を読み込んで系統推定する流れだけ紹介します。

Windows11で起動したところ。

Align => Edit/Build Alignmentを選択

パネルが出てくるので、Retrieve from fileを選択して準備した配列ファイルを指定する。

Alignment explorerウィンドウが出てきて、配列ファイルが読み込まれた。このウィンドウ上で配列名を変更したり、トリミングしたりといった編集を行える。

クリックして配列を選択後、Alignment by ClustalXを選択（長い遺伝子だとかなり時間がかかる）、

パラメータを確認後、多重整列を実行する。

しばらく時間がかかる。

ちなみにジョブはバックグラウンドで走っているので、メインウィンドウで別の操作も実行できる。

全部の配列が整列された（前の画像から配列数を減らしている）。

このウィンドウ上でData => Phylogenetic Analysisを選択、

あるいはメインパネルでPhylogenyを選択する。

（既に他のソフトウェアで多重整列とギャップが多い領域などのトリミングを実行済みの場合もここから始める）

樹形推定の方法を選択する。ここでは高速なNJを選択した。パラメータを指定して実行する。

最尤法。ブートストラップ法の選択、置換モデルの指定、Gamma分布などの指定など。

Tree Explorerパネルに結果が出力された。

枝をクリックして特定の系統だけcollapse（枝を潰して表示）する。あるいはcollapseされているtipを展開する。

Rootingの方法も、Midpoint rootや手動選択など選べる。

Fontや文字サイズはStatisticsから変更できる。

ブートストラップ法を選択している場合、ブートストラップサンプリングからのコンセンサスツリーも表示できる。

結果はimageからビットマップ画像やベクター形式の画像として出力できる。

Newick形式の系統樹として保存。

距離行列の作成

最適な置換モデルの探索

出力例

出版品質の表として出力される。略称は下に説明がある。

置換の尤度計算。画像下のスタイルの表が出力される。

祖先配列の推定（樹形推定結果後）

非常に簡単にだけ説明しました。詳しくはオンラインマニュアルを参考にして下さい。下に分かりやすく説明している動画のリンクも貼っておきます。

引用

MEGA11: Molecular Evolutionary Genetics Analysis Version 11
Koichiro Tamura, Glen Stecher, Sudhir Kumar

Mol Biol Evol. 2021 Jun 25;38(7):3022-3027.

参考

How to Construct a Phylogenetic Tree in MEGA 11: A Step-by-Step Guide

2024-06-23

IQ-TREE 2

2020 2015 Molecular Biology and Evolution

2024/06/24 誤字修正

2020年の論文

IQ-TREE（http://www.iqtree.org）は、最尤法を用いた系統推論を行うための、ユーザーフレンドリーで広く利用されているソフトウェアパッケージである。2014年にバージョン1をリリースして以来、本著者らはIQ-TREEを継続的に拡張し、ゲノムデータを扱うための配列進化の新しいモデルや系統推定の効率的な計算アプローチを多数統合してきた。ここでは、IQ-TREEバージョン2の特筆すべき機能について説明し、他のソフトウェアと比較した際の主な利点を強調する。

2015年の論文

大規模な系統学データセットでは、特に最尤（ML）系統樹のための高速な樹推定法が必要とされる。高速なプログラムも存在するが、最適な樹形を見つけるinherent heuristicsのため、最適なツリーが見つかっているかどうかは明らかではない。従って、MLツリーを見つけるために異なる探索戦略を採用し、同時に現在利用可能なMLプログラムと同程度に高速なアプローチを追加する必要がある。本著者らは、ヒルクライムアプローチとstochastic perturbation methodの組み合わせが時間効率よく実装できることを示す。RAxMLやPhyMLと同じCPU時間であれば、IQ-TREEは62.2%から87.1%より高い尤度を発見し、効率的にツリー空間を探索した。IQ-TREEの停止ルールを用いた場合、DNAアラインメントでは75.7%、47.1%、タンパク質アラインメントでは42.2%、100%でRAxMLとPhyMLの方が高速となる。しかし、IQ-TREEにより高い尤度が得られる範囲は73.3-97.1%に改善された。

Manual

http://www.iqtree.org/doc/

Beginner's Tutorial

http://www.iqtree.org/doc/Tutorial

Advanced Tutorial

http://www.iqtree.org/doc/Advanced-Tutorial

コマンドリファレンス

http://www.iqtree.org/doc/Command-Reference

v1系とv2以降ではコマンドが微妙に異なっています。ここではv2を簡単に紹介します。

インストール

Github

https://github.com/iqtree/iqtree2

#link（iqtreeと指定すると通常v2が導入される）
mamba install bioconda::iqtree -y

HPからもそれぞれのプラットフォームのバージョンのIQ-TREEをダウンロードできる。2024年現在v2.3.4となっている。

アクセスして、一番下にスクロールすると全プラットフォームのダウンロードリンクがある。

> iqtree2 -h

IQ-TREE multicore version 2.3.4 COVID-edition for Linux x86 64-bit built Jun 5 2024

Developed by Bui Quang Minh, James Barbetti, Nguyen Lam Tung, Olga Chernomor,

Heiko Schmidt, Dominik Schrempf, Michael Woodhams, Ly Trong Nhan, Thomas Wong

Usage: iqtree [-s ALIGNMENT] [-p PARTITION] [-m MODEL] [-t TREE] ...

GENERAL OPTIONS:

-h, --help Print (more) help usages

-s FILE[,...,FILE] PHYLIP/FASTA/NEXUS/CLUSTAL/MSF alignment file(s)

-s DIR Directory of alignment files

--seqtype STRING BIN, DNA, AA, NT2AA, CODON, MORPH (default: auto-detect)

-t FILE|PARS|RAND Starting tree (default: 99 parsimony and BIONJ)

-o TAX[,...,TAX] Outgroup taxon (list) for writing .treefile

--prefix STRING Prefix for all output files (default: aln/partition)

--seed NUM Random seed number, normally used for debugging purpose

--safe Safe likelihood kernel to avoid numerical underflow

--mem NUM[G|M|%] Maximal RAM usage in GB | MB | %

--runs NUM Number of indepedent runs (default: 1)

-v, --verbose Verbose mode, printing more messages to screen

-V, --version Display version number

--quiet Quiet mode, suppress printing to screen (stdout)

-fconst f1,...,fN Add constant patterns into alignment (N=no. states)

--epsilon NUM Likelihood epsilon for parameter estimate (default 0.01)

-T NUM|AUTO No. cores/threads or AUTO-detect (default: 1)

--threads-max NUM Max number of threads for -T AUTO (default: all cores)

CHECKPOINT:

--redo Redo both ModelFinder and tree search

--redo-tree Restore ModelFinder and only redo tree search

--undo Revoke finished run, used when changing some options

--cptime NUM Minimum checkpoint interval (default: 60 sec and adapt)

PARTITION MODEL:

-p FILE|DIR NEXUS/RAxML partition file or directory with alignments

Edge-linked proportional partition model

-q FILE|DIR Like -p but edge-linked equal partition model

-Q FILE|DIR Like -p but edge-unlinked partition model

-S FILE|DIR Like -p but separate tree inference

--subsample NUM Randomly sub-sample partitions (negative for complement)

--subsample-seed NUM Random number seed for --subsample

LIKELIHOOD/QUARTET MAPPING:

--lmap NUM Number of quartets for likelihood mapping analysis

--lmclust FILE NEXUS file containing clusters for likelihood mapping

--quartetlh Print quartet log-likelihoods to .quartetlh file

TREE SEARCH ALGORITHM:

--ninit NUM Number of initial parsimony trees (default: 100)

--ntop NUM Number of top initial trees (default: 20)

--nbest NUM Number of best trees retained during search (defaut: 5)

-n NUM Fix number of iterations to stop (default: OFF)

--nstop NUM Number of unsuccessful iterations to stop (default: 100)

--perturb NUM Perturbation strength for randomized NNI (default: 0.5)

--radius NUM Radius for parsimony SPR search (default: 6)

--allnni Perform more thorough NNI search (default: OFF)

-g FILE (Multifurcating) topological constraint tree file

--fast Fast search to resemble FastTree

--polytomy Collapse near-zero branches into polytomy

--tree-fix Fix -t tree (no tree search performed)

--treels Write locally optimal trees into .treels file

--show-lh Compute tree likelihood without optimisation

--terrace Check if the tree lies on a phylogenetic terrace

ULTRAFAST BOOTSTRAP/JACKKNIFE:

-B, --ufboot NUM Replicates for ultrafast bootstrap (>=1000)

-J, --ufjack NUM Replicates for ultrafast jackknife (>=1000)

--jack-prop NUM Subsampling proportion for jackknife (default: 0.5)

--sampling STRING GENE|GENESITE resampling for partitions (default: SITE)

--boot-trees Write bootstrap trees to .ufboot file (default: none)

--wbtl Like --boot-trees but also writing branch lengths

--nmax NUM Maximum number of iterations (default: 1000)

--nstep NUM Iterations for UFBoot stopping rule (default: 100)

--bcor NUM Minimum correlation coefficient (default: 0.99)

--beps NUM RELL epsilon to break tie (default: 0.5)

--bnni Optimize UFBoot trees by NNI on bootstrap alignment

NON-PARAMETRIC BOOTSTRAP/JACKKNIFE:

-b, --boot NUM Replicates for bootstrap + ML tree + consensus tree

-j, --jack NUM Replicates for jackknife + ML tree + consensus tree

--jack-prop NUM Subsampling proportion for jackknife (default: 0.5)

--bcon NUM Replicates for bootstrap + consensus tree

--bonly NUM Replicates for bootstrap only

--tbe Transfer bootstrap expectation

SINGLE BRANCH TEST:

--alrt NUM Replicates for SH approximate likelihood ratio test

--alrt 0 Parametric aLRT test (Anisimova and Gascuel 2006)

--abayes approximate Bayes test (Anisimova et al. 2011)

--lbp NUM Replicates for fast local bootstrap probabilities

MODEL-FINDER:

-m TESTONLY Standard model selection (like jModelTest, ProtTest)

-m TEST Standard model selection followed by tree inference

-m MF Extended model selection with FreeRate heterogeneity

-m MFP Extended model selection followed by tree inference

-m ...+LM Additionally test Lie Markov models

-m ...+LMRY Additionally test Lie Markov models with RY symmetry

-m ...+LMWS Additionally test Lie Markov models with WS symmetry

-m ...+LMMK Additionally test Lie Markov models with MK symmetry

-m ...+LMSS Additionally test strand-symmetric models

--mset STRING Restrict search to models supported by other programs

(raxml, phyml, mrbayes, beast1 or beast2)

--mset STR,... Comma-separated model list (e.g. -mset WAG,LG,JTT)

--msub STRING Amino-acid model source

(nuclear, mitochondrial, chloroplast or viral)

--mfreq STR,... List of state frequencies

--mrate STR,... List of rate heterogeneity among sites

(e.g. -mrate E,I,G,I+G,R is used for -m MF)

--cmin NUM Min categories for FreeRate model [+R] (default: 2)

--cmax NUM Max categories for FreeRate model [+R] (default: 10)

--merit AIC|AICc|BIC Akaike|Bayesian information criterion (default: BIC)

--mtree Perform full tree search for every model

--madd STR,... List of mixture models to consider

--mdef FILE Model definition NEXUS file (see Manual)

--modelomatic Find best codon/protein/DNA models (Whelan et al. 2015)

PARTITION-FINDER:

--merge Merge partitions to increase model fit

--merge greedy|rcluster|rclusterf

Set merging algorithm (default: rclusterf)

--merge-model 1|all Use only 1 or all models for merging (default: 1)

--merge-model STR,...

Comma-separated model list for merging

--merge-rate 1|all Use only 1 or all rate heterogeneity (default: 1)

--merge-rate STR,...

Comma-separated rate list for merging

--rcluster NUM Percentage of partition pairs for rcluster algorithm

--rclusterf NUM Percentage of partition pairs for rclusterf algorithm

--rcluster-max NUM Max number of partition pairs (default: 10*partitions)

SUBSTITUTION MODEL:

-m STRING Model name string (e.g. GTR+F+I+G)

DNA: HKY (default), JC, F81, K2P, K3P, K81uf, TN/TrN, TNef,

TIM, TIMef, TVM, TVMef, SYM, GTR, or 6-digit model

specification (e.g., 010010 = HKY)

Protein: LG (default), Poisson, cpREV, mtREV, Dayhoff, mtMAM,

JTT, WAG, mtART, mtZOA, VT, rtREV, DCMut, PMB, HIVb,

HIVw, JTTDCMut, FLU, Blosum62, GTR20, mtMet, mtVer, mtInv, FLAVI,

Q.LG, Q.pfam, Q.pfam_gb, Q.bird, Q.mammal, Q.insect, Q.plant, Q.yeast

Protein mixture: C10,...,C60, EX2, EX3, EHO, UL2, UL3, EX_EHO, LG4M, LG4X

Binary: JC2 (default), GTR2

Empirical codon: KOSI07, SCHN05

Mechanistic codon: GY (default), MG, MGK, GY0K, GY1KTS, GY1KTV, GY2K,

MG1KTS, MG1KTV, MG2K

Semi-empirical codon: XX_YY where XX is empirical and YY is mechanistic model

Morphology/SNP: MK (default), ORDERED, GTR

Lie Markov DNA: 1.1, 2.2b, 3.3a, 3.3b, 3.3c, 3.4, 4.4a, 4.4b, 4.5a,

4.5b, 5.6a, 5.6b, 5.7a, 5.7b, 5.7c, 5.11a, 5.11b, 5.11c,

5.16, 6.6, 6.7a, 6.7b, 6.8a, 6.8b, 6.17a, 6.17b, 8.8,

8.10a, 8.10b, 8.16, 8.17, 8.18, 9.20a, 9.20b, 10.12,

10.34, 12.12 (optionally prefixed by RY, WS or MK)

Non-reversible: STRSYM (strand symmetric model, equiv. WS6.6),

NONREV, UNREST (unrestricted model, equiv. 12.12)

NQ.pfam, NQ.bird, NQ.mammal, NQ.insect, NQ.plant, NQ.yeast

Otherwise: Name of file containing user-model parameters

STATE FREQUENCY:

-m ...+F Empirically counted frequencies from alignment

-m ...+FO Optimized frequencies by maximum-likelihood

-m ...+FQ Equal frequencies

-m ...+FRY For DNA, freq(A+G)=1/2=freq(C+T)

-m ...+FWS For DNA, freq(A+T)=1/2=freq(C+G)

-m ...+FMK For DNA, freq(A+C)=1/2=freq(G+T)

-m ...+Fabcd 4-digit constraint on ACGT frequency

(e.g. +F1221 means f_A=f_T, f_C=f_G)

-m ...+FU Amino-acid frequencies given protein matrix

-m ...+F1x4 Equal NT frequencies over three codon positions

-m ...+F3x4 Unequal NT frequencies over three codon positions

RATE HETEROGENEITY AMONG SITES:

-m ...+I A proportion of invariable sites

-m ...+G[n] Discrete Gamma model with n categories (default n=4)

-m ...*G[n] Discrete Gamma model with unlinked model parameters

-m ...+I+G[n] Invariable sites plus Gamma model with n categories

-m ...+R[n] FreeRate model with n categories (default n=4)

-m ...*R[n] FreeRate model with unlinked model parameters

-m ...+I+R[n] Invariable sites plus FreeRate model with n categories

-m ...+Hn Heterotachy model with n classes

-m ...*Hn Heterotachy model with n classes and unlinked parameters

--alpha-min NUM Min Gamma shape parameter for site rates (default: 0.02)

--gamma-median Median approximation for +G site rates (default: mean)

--rate Write empirical Bayesian site rates to .rate file

--mlrate Write maximum likelihood site rates to .mlrate file

POLYMORPHISM AWARE MODELS (PoMo):

-s FILE Input counts file (see manual)

-m ...+P DNA substitution model (see above) used with PoMo

-m ...+N<POPSIZE> Virtual population size (default: 9)

-m ...+WB|WH|S] Weighted binomial sampling

-m ...+WH Weighted hypergeometric sampling

-m ...+S Sampled sampling

-m ...+G[n] Discrete Gamma rate with n categories (default n=4)

COMPLEX MODELS:

-m "MIX{m1,...,mK}" Mixture model with K components

-m "FMIX{f1,...fK}" Frequency mixture model with K components

--mix-opt Optimize mixture weights (default: detect)

-m ...+ASC Ascertainment bias correction

--tree-freq FILE Input tree to infer site frequency model

--site-freq FILE Input site frequency model file

--freq-max Posterior maximum instead of mean approximation

TREE TOPOLOGY TEST:

--trees FILE Set of trees to evaluate log-likelihoods

--test NUM Replicates for topology test

--test-weight Perform weighted KH and SH tests

--test-au Approximately unbiased (AU) test (Shimodaira 2002)

--sitelh Write site log-likelihoods to .sitelh file

ANCESTRAL STATE RECONSTRUCTION:

--ancestral Ancestral state reconstruction by empirical Bayes

--asr-min NUM Min probability of ancestral state (default: equil freq)

TEST OF SYMMETRY:

--symtest Perform three tests of symmetry

--symtest-only Do --symtest then exist

--symtest-remove-bad Do --symtest and remove bad partitions

--symtest-remove-good Do --symtest and remove good partitions

--symtest-type MAR|INT Use MARginal/INTernal test when removing partitions

--symtest-pval NUMER P-value cutoff (default: 0.05)

--symtest-keep-zero Keep NAs in the tests

CONCORDANCE FACTOR ANALYSIS:

-t FILE Reference tree to assign concordance factor

--gcf FILE Set of source trees for gene concordance factor (gCF)

--df-tree Write discordant trees associated with gDF1

--scf NUM Number of quartets for site concordance factor (sCF)

--scfl NUM Like --scf but using likelihood (recommended)

-s FILE Sequence alignment for --scf

-p FILE|DIR Partition file or directory for --scf

--cf-verbose Write CF per tree/locus to cf.stat_tree/_loci

--cf-quartet Write sCF for all resampled quartets to .cf.quartet

ALISIM: ALIGNMENT SIMULATOR

Usage: iqtree --alisim <OUTPUT_PREFIX> [-m MODEL] [-t TREE] ...

--alisim OUTPUT_ALIGNMENT Activate AliSim and specify the output alignment filename

-t TREE_FILE Set the input tree file name

--length LENGTH Set the length of the root sequence

--num-alignments NUMBER Set the number of output datasets

--seqtype STRING BIN, DNA, AA, CODON, MORPH{NUM_STATES} (default: auto-detect)

For morphological data, 0<NUM_STATES<=32

--m MODEL_STRING Specify the evolutionary model. See Manual for more detail

--mdef FILE Name of a NEXUS model file to define new models (see Manual)

--fundi TAXA_LIST,RHO Specify a list of taxa, and Rho (Fundi weight) for FunDi model

--indel <INS>,<DEL> Set the insertion and deletion rate of the indel model,

relative to the substitution rate

--indel-size <INS_DIS>,<DEL_DIS> Set the insertion and deletion size distributions

--sub-level-mixture Enable the feature to simulate substitution-level mixture model

--no-unaligned Disable outputing a file of unaligned sequences

when using indel models

--root-seq FILE,SEQ_NAME Specify the root sequence from an alignment

-s FILE Specify the input sequence alignment

--no-copy-gaps Disable copying gaps from input alignment (default: false)

--site-freq <OPTION> Specify the option (MEAN (default), or SAMPLING, or MODEL)

to mimic the site-frequencies for mixture models from

the input alignment (see Manual)

--site-rate <OPTION> Specify the option (MEAN (default), or SAMPLING, or MODEL)

to mimic the discrete rate heterogeneity from

the input alignment (see Manual)

-t RANDOM{MODEL,NUM_TAXA} Specify the model and the number of taxa to generate a random tree

-rlen MIN MEAN MAX Specify three numbers: minimum, mean and maximum branch lengths

when generating a random tree

-p FILE NEXUS/RAxML partition file

Edge-linked proportional partition model

-q FILE Like -p but edge-linked equal partition model

-Q FILE Like -p but edge-unlinked partition model

--distribution FILE Supply a definition file of distributions,

which could be used to generate random model parameters

--branch-distribution DIS Specify a distribution, from which branch lengths of the input trees

are randomly generated and overridden.

--branch-scale SCALE Specify a value to scale all branch lengths

--single-output Output all alignments into a single file

--write-all Enable outputting internal sequences

--seed NUM Random seed number (default: CPU clock)

Be careful to make the AliSim reproducible,

users should specify the seed number

-gz Enable output compression but taking longer running time

-af phy|fasta Set the output format (default: phylip)

User Manual is available at http://www.iqtree.org/doc/alisim

ANALYSIS WITH GENTRIUS ALGORITHM:

--gentrius FILE File must contain either a single species-tree or a set of subtrees.

-pr_ab_matrix FILE Presence-absence matrix of loci coverage.

-s FILE PHYLIP/FASTA/NEXUS/CLUSTAL/MSF alignment file(s)

-p FILE NEXUS/RAxML partition file

-g_stop_t NUM Stop after NUM species-trees were generated, or use 0 to turn off this stopping rule. Default: 1MLN trees.

-g_stop_i NUM Stop after NUM intermediate trees were visited, or use 0 to turn off this stopping rule. Default: 10MLN trees.

-g_stop_h NUM Stop after NUM hours (CPU time), or use 0 to turn off this stopping rule. Default: 7 days.

-g_non_stop Turn off all stopping rules.

-g_query FILE Species-trees to test for identical set of subtrees.

-g_print Write all generated species-trees. WARNING: there might be millions of trees!

-g_print_lim NUM Limit on the number of species-trees to be written.

-g_print_induced Write induced partition subtrees.

-g_print_m Write presence-absence matrix.

-g_rm_leaves NUM Invoke reverse analysis for complex datasets.

TIME TREE RECONSTRUCTION:

--date FILE File containing dates of tips or ancestral nodes

--date TAXNAME Extract dates from taxon names after last '|'

--date-tip STRING Tip dates as a real number or YYYY-MM-DD

--date-root STRING Root date as a real number or YYYY-MM-DD

--date-ci NUM Number of replicates to compute confidence interval

--clock-sd NUM Std-dev for lognormal relaxed clock (default: 0.2)

--date-no-outgroup Exclude outgroup from time tree

--date-outlier NUM Z-score cutoff to remove outlier tips/nodes (e.g. 3)

--date-options ".." Extra options passing directly to LSD2

--dating STRING Dating method: LSD for least square dating (default)

実行方法

実行するには、多重整列されたPHYLIPフォーマットかFASTAフォーマット、あるいはNEXUS/CLUSTAL/MSFの配列を準備する必要がある。

IQ-treeチュートリアルより

IQ-TREEを実行するには、多重整列された配列セットを指定する。オプションなしだと、デフォルト設定での最尤推定が行われる。

#PHYLIP
iqtree2 -s example.phy

#FASTA
iqtree2 -s example.fa

-s PHYLIP/FASTA/NEXUS/CLUSTAL/MSF alignment file(s)
--seqtype BIN, DNA, AA, NT2AA, CODON, MORPH (default: auto-detect)

置換モデルを選択する。

iqtree2 -s example.phy -m GTR+G

Substitution models

http://www.iqtree.org/doc/Substitution-Models

データに対してどのモデルが適切かわからない場合は、ModelFinder を使用して最適なモデルを選択できる。ModelFinder Plus : MFPは、AIC（Akaike Information Criterion）、BIC（Bayesian Information Criterion）に基づいて、モデルの適合度と複雑さを評価し、最適な置換モデルを選択する。

iqtree2 -s example.phy -m MFP

ModelFinder Plusを使ってデータに最適なモデルを選び、近似的に最適なモデルを組み合わせてさらにデータに適合する進化モデルを作成する（近いモデルを統合して新しい複合モデルを作成）

iqtree2 -s example.phy -m MFP+MERGE

すべてのモデルについて完全なツリー推論を行う（高負荷）

iqtree -s example.phy -m MFP+MERGE --mtree

--mtree Perform full tree search for every model

最適なスレッド数を自動で決定、ただし割り当てられるCPUコアの上限は32に設定。

iqtree -s example.phy -T AUTO --threads-max 32

-T No. cores/threads or AUTO-detect (default: 1)
--threads-max Max number of threads for -T AUTO (default: all cores)

ブートストラップ法を実行。

iqtree2 –s example.phy -b 100

ランダムにポジション列を選択後、ノンパラメトリックに初期ツリー構築から計算が繰り返されるのでかなり時間がかかる。

超高速ブートストラップ近似を実行（UFBoot 2は標準的な手順よりも桁違いに速い）。

iqtree2 –s example.phy –B 1000 #v1系なら-bb 1000

UFBootでは、支持率が≧ 95%の場合のみ、そのクレードを信じ始めるべき。BS%とUFBoot%を直接比較すべきではない（マニュアルより）。

（モデルが収束するまで繰り返し、1000を指定したなら最大1000回ということ）

-alrt（Approximate Likelihood-Ratio Test）を追加して枝の支持率を評価する。aLRTを1000回繰り返す。

 iqtree -s example.phy -B 1000 -alrt 1000

SH like aLRT検定（paper）では、各ブランチには、SH-aLRTとUFBootのサポートが割り当てられる。通常、SH-aLRT >= 80%、UFboot >= 95%であれば、そのクレードを信頼し始めてよい（マニュアルより）。

深刻なモデル違反によるブランチサポートの過大評価を防ぐため、各ブートストラップツリーをさらに最適化

iqtree -s example.phy -B 1000 -bnni

アウトグループを指定

iqtree -s example.phy –o Lizard

（IQ-TREEは与えられた配列の生物学的背景について何も知らない。IQ-TREEは、アラインメントで最初に出現する配列をroot部分にツリーを描画する）

全プロセスをやり直す。

iqtree -s example.phy --redo

全プロセスを独立に複数回実行する。-vでよりたくさんのログメッセージを表示する。

iqtree -s example.phy --runs 3 -v

--runs Number of indepedent runs (default: 1)
-v Verbose mode, printing more messages to screen

IQ-TREEは自動で樹形推定プロセスを進めるため、ログを読むことが重要（.logとしてファイル保存されている）

勉強会用の資料を貼っておきます。

IQ-treeにはDiscussion forumが作成されており（old version）、そこでたくさんディスカッションされています。

https://github.com/iqtree/iqtree2/discussions

IQ-treeは樹形推定で煩雑なプロセスを自動で高速実行でき、人気のツールとなっていますが、それゆえ知識がないと現在の生命史とは矛盾するようなツリーも作りがちです。ログを読んだり樹形の信頼性を見るのはもちろんのこと、先行研究とよく比較する事も重要かと思います。遺伝子のツリーでも生命のツリーでも同様です。

その他

定期的にチェックポイントファイル example.phy.ckp.gzがディスクに書き込まれる。このチェックポイントファイルは、中断された実行を再開するために使用される。
IQtreeは実行されると最初にアライメント内のすべての配列について組成カイ二乗検定を実行する。その目的は、文字構成（DNAの場合はヌクレオチド、タンパク質配列の場合はアミノ酸など）の均一性をテストすることにある（#197）。文字組成がアラインメントの平均組成から著しく逸脱している場合、その配列は不合格と判定される（例；sequences failed composition chi2 test (p-value<5%; df=3)）。この検定は、データセットの問題点を突き止めるのに役立つ探索的なツールとして組み込まれている。通常、デフォルトでは失敗した配列を削除することはないだろうが、もしツリーが予期しないトポロジーを示すなら、この検定は問題の起源の方向を示すかもしれない。パーティションによる複数遺伝子からなるデータがある場合、パーティション分析で各遺伝子のパーティションごとに別々にテストする方が合理的かもしれない（遺伝子によって異なる進化の歴史や特徴を持っている可能性画あるという意味と考えられる）。タンパク質データである場合、配列に沿って異なるアミノ酸組成を考慮したいくつかのタンパク質混合モデル、例えばC10からC60プロファイル混合モデルを試すこともできる（こちらからそのまま引用）。

引用

IQ-TREE 2: New Models and Efficient Methods for Phylogenetic Inference in the Genomic Era
Bui Quang Minh, Heiko A Schmidt, Olga Chernomor, Dominik Schrempf, Michael D Woodhams, Arndt von Haeseler, Robert Lanfear
Molecular Biology and Evolution, Volume 37, Issue 5, May 2020, Pages 1530–1534

IQ-TREE: A Fast and Effective Stochastic Algorithm for Estimating Maximum-Likelihood Phylogenies
Lam-Tung Nguyen, Heiko A. Schmidt, Arndt von Haeseler, and Bui Quang Minh

Molecular Biology and Evolution. 2015 Jan; 32(1): 268–274.

ModelFinder: fast model selection for accurate phylogenetic estimates

Subha Kalyaanamoorthy, Bui Quang Minh, Thomas K F Wong, Arndt von Haeseler & Lars S Jermiin
Nature Methods volume 14, pages587–589 (2017)

Ultrafast Approximation for Phylogenetic Bootstrap
Bui Quang Minh, Minh Anh Thi Nguyen, Arndt von Haeseler
Molecular Biology and Evolution, Volume 30, Issue 5, May 2013, Pages 1188–1195

参考

http://www.tezuru-mozuru.com/?cat=200

2024-06-23

NCBI BLASTのClusteredNR database

NCBI BLAST tips

近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、非常に近縁な生物種から得られた同じ種類のタンパク質が結果の大部分を占めることがある。しかし、BLASTサーチでは、必ずしもクエリの配列に近い情報の重要性が高いわけではない。クエリの配列とは進化的に遠かったり、少しだけ似ている別の機能を持った配列の情報を取得することが重要な事も多い。BLAST実行前にヒット数を増やしてジョブを投げればより遠縁なヒットも得られるが、NCBI BLASTはリソース制限を行っており、制限を超えたジョブは途中で止まってしまう。また、ヒット数が増える事は抜本的な解決にはなっておらず、却って視認性を悪くしてしまう。

NCBI ClusteredNRデータベースは、2022年に登場した、MMseqs2を用いて類似した配列をクラスタリングして得られた、冗長性を減らしたNRデータベースとなっている。各クラスタには互いに90%以上同一で、最長の配列長の90%以内の長さのタンパク質が含まれている。 2024年現在でもExperimental だが、データベースをクラスタリングすることで、元のデータベースに含まれる生物やタンパク質の多様性をよりよく表現したデータベースとなっていて、検索にかかる時間も短くなってるなど、状況によってはデフォルトのNRデータベースより扱いやすい。通常のBLASTとは結果の見方が異なるので、使い方を簡単に確認しておきます。

NCBI insights

https://ncbiinsights.ncbi.nlm.nih.gov/2022/05/02/clusterednr_1/

webサービス

NCBI BLASTPかBLASTXにアクセスする。

Choose search set => Experimental databaseでClusteredNRを選択する。

Organisumの欄で指定することで、BLASTサーチの対象範囲を特定の分類のみに制限できる。制限するには、生物の一般名、属名＋種小名の二命名法、またはNCBI taxIDで指定する。

ここではE.coliの60S ribosomal protein L21（link）のアミノ酸配列を使用した。パラメータはデフォルトとした。

出力例

通常のBLAST結果と異なり、結果はクラスターごとにまとめられる。

クラスタの情報として、アノテーションの充実した代表タンパク質の情報が表示されている。

各クラスタは90%以上同一で、最長の配列長の90%以内の長さでクラスタリングしているので、複数の生物（種）の配列が含まれる場合がある。

右端のPer identityの列を見ると、トップヒットが100％、次が91%となっていて冗長なヒットが抑制されていることが分かる。

例えば上の画像の3つ目のヒットには 8 members, 58 organismとある。クリックすると、そのクラスタに含まれる配列の情報が表示される。

このパネルの右上のボタンから、全配列をダウンロードできる。

また、クラスターの全メンバーのMSAを実行したり、含まれる配列に対してBLASTのジョブを投げたりもできる。

8配列含まれるクラスタへのBLAST結果（BLAST alignmentボタン）

多重整列結果

各クラスタは事前定義されており、探索は高速に実行できます。クエリと類似した配列を集めてきたい時にも便利だと思います。

引用

Database resources of the national center for biotechnology information
Eric W Sayers, Evan E Bolton, J Rodney Brister, Kathi Canese, Jessica Chan, Donald C Comeau, Ryan Connor, Kathryn Funk, Chris Kelly, Sunghwan Kim, Tom Madej, Aron Marchler-Bauer, Christopher Lanczycki, Stacy Lathrop, Zhiyong Lu, Francoise Thibaud-Nissen, Terence Murphy, Lon Phan, Yuri Skripchenko, Tony Tse, Jiyao Wang, Rebecca Williams, Barton W Trawick, Kim D Pruitt, Stephen T Sherry

Nucleic Acids Res. 2022 Jan 7;50(D1):D20-D26. doi:0.1093/nar/gkab1112.

2024-06-20

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

2024 Bioinformatics GUIツール結果の視覚化 (visualization)

　生物の分子進化の歴史を理解するには、通常、近縁種や系統のゲノム領域を視覚的に比較する必要がある。このタスクを達成するためのアプリケーションはすでにいくつか存在するが、それらは古すぎたり、限定的すぎたり、あるいは複雑すぎたりして、ほとんどのユーザーのニーズには合わない。GenoFigは、原核生物のゲノム領域を視覚化するためのグラフィカルなアプリケーションであり、可能な限り使いやすく、様々なニーズに適応できる柔軟性を意図している。GenoFigは、正規表現を用いて、GenBankファイルから抽出されたアノテーションを、配列間で一貫した方法でパーソナライズされた形で表現することができる。また、配列間の相同領域の表示を最適化するユニークなオプションや、配列のGCパーセンテージやGC-skew表現のような、より古典的な機能も提供する。要約すると、GenoFigは、原核生物における特定のゲノム領域の進化を探索し、出版に耐えうる図を作成するための、シンプルで、無料で、高度に設定可能なツールである。Genofigは、GPL 3.0ライセンスのもと、https://forgemia.inra.fr/public-pgba/genofigで利用できる。

インストール

ubuntu22でcondaで環境を作ってテストした。レポジトリではリリース1.1のWindows版とMacOS版のコンパイル済みバージョンのダウンロードリンクも用意されている。

Github

git clone https://forgemia.inra.fr/public-pgba/genofig.git
cd genofig/
#linux
mamba env create -f extras/requirements.yml
conda activate genofig
extras/SETUP.sh #link
#windows (WSLではない)
mamba env create -f extras/requirements_windows.yml


#パスを通す
export PATH="'$(pwd)':$PATH"
#or, 
echo 'export PATH="'$(pwd)':$PATH"' >> ~/.bashrc && source ~/.bashrc

> Genofig

GenoFigはGenBankフォーマットのアノテーションを使う。GenoFigは小さなゲノム領域（せいぜい数百Kbp）を比較するように設計されているので、ゲノム全体を読み込むには向いていない。数個の遺伝子や遺伝子クラスターなどを可視化する。

チュートリアルではNCBI nucleotideから遺伝子フィーチャーを可視化して、比較したい領域をGenBankでダウンロードしている。

GenBankは左端のプラスのボタンから読み込む。

CREATE FIGURE ボタンを押すと視覚化されてSVG形式で保存される。

アノテーションがついているCDSは灰色のボックスでプロットされる。例外として、アノテーションが hypothetical proteinsは白色のボックスでプロットされる。

特定のCDSだけ色を変更できる。Featureタブに移動し、プラスマークで新しいfeatureを追加、type列で色を変更したいCDSのアノテーション名（同じ名前だと一括して適用される）を入力し、productを選択、さらに右の方のcolorで色を指定する。

視覚化すると色が変更された。フィルターは正規表現をサポートしているので、柔軟に特定のfeatureだけ強調したりできる。

レポジトリで紹介されている代表的な機能を見ていく。

配列タブでreverseにチェックを入れると全ての矢印の向きが反転する（全体が反転するのではなく、個々のfeatureが180度回転する）。

SequencesタブのBとIをチェックして左端のラベルを太字と斜体にする。

Sequencesタブの左端のラベルの色を緑にして、さらにtypeをorganismにして生物名がラベルされるようにする。

Sequencesタブの左端のラベルのサイズを20に下げる。

Sequencesタブには、他にもラベルの位置やサイズ、幅などを細かく調整できるようになっている。

ラベルがはみ出さないように、上のパネルで左側のマージンを400に増やす。

2つ目の配列を追加した。

ラベルが被っている。ほとんどのフィーチャーは同じなので、Sequencesタブの右端近くのfeat.label列のGeneralのチェックをはずし、最初の配列にだけチェックを入れる。

一番上のgenbank配列にのみアノテーションが表示された。

Featuresタブの右端の方のlabel列のチェックを特定のフィーチャー以外は外した。

Homologies パネルでRun blastnを実行し、それから描画した。

配列間の相同なCDSがシンテニーで示される（すべての配列間でBLASTnが実行されるため配列数が多い時は注意）。画像では、上下は同じ配列のため、全領域にシンテニーが見つかっている。

レジェンドタブで凡例が表示されるようにする。サイズはスケール係数で、場所はpositonで指定できる。

カスタムした設定はsaveから保存できるが、そのApplicationメニューが正しく表示されないという問題が発生しているらしい。試した時は表示されなかった（M1 macでrosetta2使用）。

レポジトリでは情報が整理されてずっと綺麗な作図がされています。確認して下さい。

引用

GenoFig: a user-friendly application for the visualisation and comparison of genomic regions

Maxime Branger, Sébastien O Leclercq

Bioinformatics, Published: 13 June 2024

タンパク質の機能的アノテーションを行う AnnoPRO

2024 Genome Biology annotation GO term API

　タンパク質の機能アノテーションは生物科学における長年の課題の一つであり、様々な計算手法が開発されてきた。しかし、既存の方法では、GOファミリーの数が多く、アノテーションされたタンパク質が少ないという深刻なロングテール問題に悩まされている。そこで、配列に基づくマルチスケールタンパク質表現、事前学習によるデュアルパスタンパク質エンコーディング、長期短期記憶に基づくデコーディングによる機能アノテーションを可能にする、AnnoPROと名付けられた革新的な戦略を構築した。様々なベンチマークに基づくケーススタディを実施し、AnnoPROが利用可能な手法の中で優れた性能を持つことを確認した。ソースコードとモデルは https://github.com/idrblab/AnnoPRO と https://zenodo.org/records/10012272にあり、自由に利用できる。

手順

step 1: 入力タンパク質のシーケンス
step 2: Profeatによる特徴抽出
step 3: 特徴の対距離計算 --> cosine, correlation, jaccard
Step4: 特徴の2次元埋め込み --> umap, tsne, mds
step5: 特徴の格子配置 --> grid, scatter
Step6: 変換 --> minmax, standard

インストール

ubuntu22でcondaで環境を作ってテストした（RTX3090使用）。

Github

git clone https://github.com/idrblab/AnnoPRO.git
cd AnnoPRO
conda create -n annopro python=3.8
conda activate annopro
pip install .

> annopro -h

usage: annopro [-h] [--fasta_file FASTA_FILE] [--output OUTPUT] [--used_gpu USED_GPU] [--disable_diamond] [--overwrite] [--version]

Arguments for AnnoPRO

optional arguments:

-h, --help show this help message and exit

--fasta_file FASTA_FILE, -i FASTA_FILE

The protein sequences file

--output OUTPUT, -o OUTPUT

Output directory

--used_gpu USED_GPU GPU device selected, default is CPU

--disable_diamond Disable blast with diamond

--overwrite Overwrite existed output

--version Show version

実行方法

タンパク質のfastaファイルを指定する。配列名に特殊文字が含まれているとエラーを起こす可能性があるので注意する。

annopro -i test_proteins.fasta -o output

--used_gpu GPU device selected, default is CPU

初回はモデルダウンロードに時間がかかる。試した時は、１度目は途中で止まり、２度目は１時間ほどでダウンロードできた。

出力例

result.csvが最終出力となる。Gene OntologyのBP、MF、CCのカテゴリに分けて３つのファイルとして出力されている。

> csvlook cc_result.csv |head -n 20

1列目：タンパク質名、２列目：GO term、３列目：スコア

レポジトリのexample下にも出力ファイル例がある。

https://github.com/idrblab/AnnoPRO/tree/main/example

引用

AnnoPRO: a strategy for protein function annotation based on multi-scale protein representation and a hybrid deep learning of dual-path encoding

Lingyan Zheng, Shuiyang Shi, Mingkun Lu, Pan Fang, Ziqi Pan, Hongning Zhang, Zhimeng Zhou, Hanyu Zhang, Minjie Mou, Shijie Huang, Lin Tao, Weiqi Xia, Honglin Li, Zhenyu Zeng, Shun Zhang, Yuzong Chen, Zhaorong Li & Feng Zhu

Genome Biology volume 25, Article number: 41 (2024)

生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するウェブツール Comparative Genome Dashboard

2024 Preprint metabolism Pathway web tool transporter GO term

　Comparative Genome Dashboardは、生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するためのウェブベースのソフトウェアツールである。このツールは細胞機能のハイレベルなグラフィカルな調査を提供し、興味のあるサブシステムをより詳細に調べるためにドリルダウン（注；データのレベルを掘り下げてさらに詳細を調べる操作）することを可能にする。比較ダッシュボードの最も高いレベルには、生合成、エネルギー代謝、輸送、刺激に対する応答などの細胞システムのパネルが含まれている。各パネルには、そのパネルのサブシステムのセットについての各生物の化合物または遺伝子産物の数をプロットした棒グラフのセットが含まれている。ユーザーは、興味のあるサブシステムにフォーカスするためにインタラクティブにドリルダウンし、各生物によって生成または消費される化合物のグリッド、特定のGO termの割り当て、パスウェイダイアグラム、およびより詳細な比較ページへのリンクを見ることができる。例えば、ダッシュボードでは、一組の生物が合成できる補酵素、輸送できる金属イオン、DNA損傷修復能力、バイオフィルム形成遺伝子、ウイルス応答タンパク質を比較することができる。このダッシュボードにより、ユーザーは様々な詳細レベルでの包括的な比較を素早く行うことができる。

BioCyc Guided Tour (2023)

https://youtu.be/t3xuKH7_Txo?si=Uw4jkzwOzit1GLNt

HPより

Comparative Genome Dashboardは、それぞれのゲノムとパスウェイのアノテーションによってコードされる、生物または生物群の全体的な生物学的能力を視覚化するためのツールである。全ての細胞システムの迅速な調査を容易にし、生物間の類似点と相違点を素早く特定することを可能にする。

webサービス

BioCyc web portal: https://biocyc.orgにアクセスする。

右上からアカウントを作ってログインする。すぐに作れる。

アクセスするには、上のToolsメニューからComparative Genome Dashboard（右端の上から２つ目）を選択する。

Comparative Genome Dashboardに入ったら、比較する生物を選ぶウィンドウが出てくる。

このウィンドウで生物を選択する。数が多いと表示が遅くなるため、10以下に留めることが推奨されている。

画像では細菌を選んでいるが、真核生物も選べる（ヒトなど）。

ダッシュボード・データの生成には１～2分かかる。

出力例

（マニュアルより）ゲノムダッシュボードは、分解／利用／同化といった細胞システムを表すパネルで構成されている。その構成は、オミックスダッシュボード（オミックスデータを可視化するツール：https://biocyc.org/dashboard/dashboard-intro.shtml?orgid=ECOLI）と同じである。各代謝パネルには独自のY軸があり、各生物によって分解または利用された代謝物の総数を示している。異なる色のプロットは生物に対応している（画像では５つの生物）。

代謝物のカウントは、その生物に存在する代謝経路の有無に基づいている（ゲノムアノテーションの質に依存）。

代謝物ではないパネルでは、棒グラフはそのシステムにアノテーションされた遺伝子数を表している。

プロットをクリックすると、そのサブシステムを構成するサブシステムについての新しいパネルが表示される。Cofactor Synをクリックした。

出てきたサブパネルをさらにクリックすると、各代謝物の代謝の有無を示したタイル状のプロットが表示される。

行は代謝物（文脈によって合成、分解、輸送）またはその他の生物学的能力を表し、列は生物を表す。

この例のように、検索後の初期パネルでは代謝物の数だけ表示されていたが、クリックしてドリルダウンする事で、どの代謝物の合成や分解が可能であるのかを詳しく調べる事ができるように設計されている。

（注；上の図のボックスは、その生物のデータベースに該当する合成パスウェイが1つ以上含まれている場合のみ色が付けられている（複数のバリアント経路が定義されている場合があることに注意）。色の薄いボックスは、その生物に経路が存在すると予測されたとしても1つ以上の経路の穴があることを示している。色が薄いほど欠けている経路の割合が大きい。）

棒グラフやカラーボックスにマウスカーソルを合わせると、化合物名とその化合物および生物に関連するすべてのパスウェイがリストアップされたウィンドウが表示される。

カラーボックスをクリックすると、その生物での該当する化合物の代謝に関連するすべてのバリアント経路のパスウェイ図表示される。

パスウェイ図の化合物をクリックすると詳細を確認できる。

また、サブパネルのカラーパネルの上でカーソルをホバーするとshow pathway comparisonが出てくる。これをクリックすると、

新しいウィンドウで、生物名（行）と遺伝子の象限として（それぞれの象限には構造式か遺伝子名）、その代謝反応の有無を比較できる。

ここからBIOCYCにジャンプしてどのような反応であるかを詳しく調べることが出来る。原核生物でオペロンになっているならオペロン構造なども調べられる。

検索後のトップページ（ゲノムダッシュボード）上部にある2つの検索ボタン：Search Compound/Pathway/GO-Term ボタンをクリックすると、化合物やパスウェイ、GO termの名前を入力して検索し、該当するパスウェイが比較している生物のどのカテゴリーに存在するのか調べられる。ヒットした場合、ここから該当するパスウェイに素早くアクセスできる。

その他・マニュアルより

生物の生物学的性質を反映するだけでなく、ダッシュボードに表示される機能はゲノムアノテーションの質に依存する。
化合物名の上、または色の付いていないボックスの上にマウスを置くと、ツールチップに詳細なパスウェイ比較ページへのリンクが表示され、違いが実際の生物学的根拠を持つ可能性が高いのか、またはアノテーションやパスウェイ予測の質の違いによる人工物なのかを評価するのに役立つ。
オプション・メニューには、その他のコマンドも用意されている。これには、パネルの内容をSVGまたはPNG画像ファイルにエクスポートする機能、比較表ページまたはダウンロード可能なデータテーブルを生成する機能などが含まれている。トップレベルのパネルについては、指定されたパネルを非表示にするコマンドもある（ページ下部のボタンで非表示のパネルを復元できる）。メイン表示ページから、パネルのタイトルをマウスでつかみ、希望の位置までドラッグすることで、トップレベルパネルの並び替えもできる。
共通化合物およびユニーク化合物の数を表示する、オプションを有効にすると、サブシステムのプロットを横切る黒いバーは、すべての生物（隠れた生物を含む）に共通する化合物の数を示す。分析が2つ以上の生物を含む場合、白いバーは、少なくとも1つの他の生物と共有する化合物の数（バーの下）と、その生物に固有の化合物の数（バーの上）の両方を示す。
Organism Preferencesセクションでは、ダッシュボードでの各生物の表示方法をカスタマイズできる。生物を選択的に非表示または表示したり、ラベルや色を編集したり、並べ替えたりできる。1つまたは複数の生物を選択的に非表示にするには、対応するボックスのチェックを外します。これにより、表示から生物のみが非表示になる。

アクセスできない時はメンテナンス中である可能性があります。

引用

The Comparative Genome Dashboard

Suzanne Paley, Ron Caspi, Paul O’Maille, Peter D. Karp

bioRxiv, posted June 12, 2024

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

タンパク質構造検索・アライメントアルゴリズム Reseek

MEGA11

IQ-TREE 2

NCBI BLASTのClusteredNR database

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

タンパク質の機能的アノテーションを行う AnnoPRO

生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するウェブツール Comparative Genome Dashboard