2020 10/27 テストデータ結果追記
選択圧力は、遺伝子の進化に継続的に影響を与え、多くの方法で研究することができる(Vittiら、2013)。例えば正の選択、または多様化する選択は、オルソロガスな遺伝子のアラインメントにおける非同義置換(dN)と同義置換(dS)の割合を比較することによって検出することができる。いくつかの部位(コドン)にわたって、dN/dS比(またはω)は、1を大きく上回る値に達することがあり(Yang、2007)、そのような部位は、正に選択されている可能性が高い。例えば、特定のアミノ酸の変化は、それが病原体に対する宿主のフィットネスを増加させる場合に有利である(Fumagalliら、2011)。また、別の方法として病原体の遺伝子が影響を受けることは、COVID 19パンデミックのように、ウイルスのスパイクタンパク質中の陽性選択部位が懸念の原因を与えた(Korberら、2020)。Positive selectionを検出することで、遺伝子の進化を解明し、宿主と常に「腕を競い合う」病原体への対策を立てることができる。
組換えは進化過程に大きな影響を与え、系統の再構成や正選択の正確な検出に悪影響を及ぼす可能性があるため(Shrinerら、2003)、研究者は、組換えを行うことで、病原体の進化を理解することができ、その対策を立てることができる。アライメント内の組換え部位を定義するためのブレイクポイントのスクリーニングは、比較進化研究の標準的なステップであるべきである。有意にポジティブに選択された部位の包括的な進化解析は、(1)インフレームアライメント、(2)インデル補正、(3)系統樹計算、(4)最適なヌクレオチド置換モデルの選択、(5)トポロジカル不整合の検出とブレークポイントの検出を含む、いくつかの複雑なステップから構成される。(6) 様々なモデルの下で正に選択された部位(ω > 1)を計算し、(7) アライメント全体に作用する選択圧への影響を計算する。このように、このような解析には何十もの異なるツールやパラメータ設定が必要となる。さらに、この分野の進化科学において、多くの確立された、広く使用されているツールの結果は、解釈および処理が容易ではない。特に、仮定的組換えイベントの正確な検出と処理は、挑戦的ではあるが本質的な作業である。ここでは、上記のすべてのタスクを自動的に処理することで、研究者が包括的な進化研究を行うことを可能にするパイプラインであるPoSeiDonを紹介する。
PoSeiDonは、タンパク質をコードする配列の組換えイベントや正の選択下にある部位を見つけるのに役立つ使いやすいパイプラインである。相同な配列を入力することで、PoSeiDonはアライメントを構築し、最適な置換モデルを推定し、組換え解析を実行した後、対応するすべての系統を構築する。最後に、完全なアライメントと組換えフラグメントの可能性のあるモデルに応じて、選択された部位の中で有意にポジティブな部位が検出される。PoSeiDonの結果は、ユーザーフレンドリーなHTMLページに要約されており、すべての中間結果と組換えイベントとポジティブに選択されたサイトのグラフ表示を提供する。PoSeiDon は https://github.com/hoelzer/poseidon で自由に利用できる。パイプラインはDockerをサポートしたNextflowで実装されており、様々なツールの出力を処理する。
インストール
最初に試したinte xeonのlinuxマシンでは原因不明のエラーが起き、step1から進めなかった。TRのlinuxマシンでは何も問題は起きなかった(どちらも-r v1.0.0指定してラン)。
依存
- TranslatorX (v1.1), Abascal et al. (2010)
- Muscle (v3.8.31), Edgar (2004)
- RAxML (v8.0.25), Stamatakis (2014)
- Newick Utilities (v1.6), Junier and Zdobnov (2010)
- MODELTEST, Posada and Crandall (1998)
- HyPhy (v2.2), Pond et al. (2005)
- GARD, Pond et al. (2006)
- PaML/CodeML (v4.8), Yang (2007)
- Ruby (v2.3.1)
- Inkscape (v1.0)
- pdfTeX (v3.14)
git clone https://github.com/hoelzer/poseidon.git
cd poseidon
nextflow run poseidon.nf --help
#or pull from the repository(ここではv1.0.0)
nextflow pull hoelzer/poseidon -r v1.0.0
> nextflow run poseidon.nf --help
$ nextflow run poseidon.nf --help
N E X T F L O W ~ version 20.07.1
Launching `poseidon.nf` [wise_leakey] - revision: 557606b4ba
WARN: DSL 2 IS AN EXPERIMENTAL FEATURE UNDER DEVELOPMENT -- SYNTAX MAY CHANGE IN FUTURE RELEASE
____________________________________________________________________________________________
PoSeiDon -- Positive Selection Detection and Recombination Analysis
Usage example:
nextflow run poseidon.nf --fasta '*/*.fasta'
Input:
--fasta '*.fasta' -> one FASTA file per transcriptome assembly
..change above input to csv: --list
General options:
--cores max cores per process for local use [default 6]
--max_cores max cores used on the machine for local use [default 56]
--memory memory limitations for polisher tools in GB [default: 8 GB]
--output name of the result folder [default: results]
--reference resulting amino acid changes and sites will be reported according to this species (FASTA id) [default: NA]
--root outgroup species (FASTA id) for tree rooting; comma-separated [default: NA]
--bootstrap number of bootstrap calculations [default: 100]
Model parameters:
--model nucleotide model used for recombination analysis, will be estimated automatically if not defined [default: 010010]
--model_rc model rate classes [default: 4]
--model_sm model selection method [default: 1]
--model_rl model rejection level [default: 0.05]
Recombination parameters (GARD):
--gard_rv GARD rate variation [default: 2]
--gard_rc GARD rate classes [default: 3]
--kh use insignificant breakpoints (based on KH test) for fragment calcuations [default: false]
Nextflow options:
-with-report rep.html cpu / ram usage (may cause errors)
-with-dag chart.html generates a flowchart for the process tree
-with-timeline time.html timeline (may cause errors)
LSF computing:
For execution of the workflow on a HPC with LSF adjust the following parameters:
--workdir defines the path where nextflow writes tmp files [default: /tmp/nextflow-work-kazu]
--cachedir defines the path where images (singularity) are cached [default: singularity]
Profile:
Merge profiles comma-separated
-profile local,docker
local,conda
lsf,docker,singularity (adjust workdir and cachedir according to your HPC config)
slurm,conda (adjust workdir and cachedir according to your HPC config)
gcloud,docker (GCP google-lifescience with docker)
テストラン
相同な配列を入力すると、PoSeiDonはアライメントを構築し、最適な置換モデルを推定し、組換え解析を実行し、その後、対応するすべての系統の構築を行う。最後に、完全なアラインメントと可能性のある組換えフラグメントのモデルに従って、選択されたサイトが有意に陽性であるかどうかまとめられる。
FASTA配列を指定する。テストデータとして用意されているのは、SARS-CoVのスパイク糖タンパク質をコードする遺伝子8配列のmulti-fastaになる(入力は塩基配列)。
nextflow run poseidon.nf --fasta examples/cov/Spike_ali_nucl-VIRULIGN.fasta --cores 12
- --fasta one FASTA file per transcriptome assembly
- --reference resulting amino acid changes and sites will be reported according to this species (FASTA id) [default: NA]
- --root outgroup species (FASTA id) for tree rooting; comma-separated [default: NA]
- --bootstrap number of bootstrap calculations [default: 100]
ランにはfastaファイルを指定する。複数ある場合はワイルドカード指定する。 dockerの実行権がユーザーにないならsudo実行する。
相同タンパク質コード配列のインフレームアライメント、組換えイベントと進化的ブレイクポイントの検出、系統再構成、フルアライメントと可能性のあるすべてのフラグメントのポジティブに選択されたサイトの検出が行われる。最後に、すべての結果を組み合わせて、ユーザーフレンドリーなHTMLのウェブページに結果がまとめられる。
出力
Spike_ali_nucl-VIRULIGN/
結果は静的なhtmlとして保存される。
html/fragment_1/index.html
左のメニューから各ファイルにアクセスできる。
例えばツリー => PDFをクリック
Treeファイルが表示された。
recombination => GARD (paper)
組換えイベントの検出と視覚化
significant sites
ハイクオリティな表として出力される。
引用
PoSeiDon: a Nextflow pipeline for the detection of evolutionary recombination events and positive selection
Martin Hölzer, Manja Marz
Bioinformatics, Published: 31 July 2020
nextflowのインストール
wget -qO- https://get.nextflow.io | bash
cp nextflow /usr/local/bin/
このツールはikemen Mas Kotさんのツイートをホタペンさんがリツートしてくれて知ったと記憶しています。教えていただきありがとうございました。