macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ノンスペシャリストのための系統解析webサービス NGPhylogeny.fr

 

系統樹の推論と解釈は、広範囲の生物学的領域(比較ゲノミクス、機能予測、メタゲノミクス、種同定、分類学、分子疫学、集団遺伝学など)を対象とする多数の研究で必要となる。Phylogeny.fr(ref.1)はもともと、次の手順に基づいてワークフローを実装することにより、系統解析を促進するように設計されていた。(i)BLASTベースの配列検索。 (ii)複数のシーケンスアラインメント。 (iii)アラインメントのキュレーション。 (iv)系統樹の推論; (v)ツリーの視覚化。Phylogeny.frは、設計する際には予想していなかったいくつかのコンテキストで幅広く使用されてきた。例えば、何百もの jobが同時にsubmitされるような非常に大規模な授業、custom submission scriptsを使ったる数千の遺伝子ファミリーの系統のための大規模なゲノムアノテーション研究など。 Phylogeny.frは2008年の発表以来、3000回以上引用されており、現在1日あたり200を超えるワークフローを実行している。

 過去10年間で、系統解析をサポートするためのいくつかの種類のソリューションが開発されてきた。

 1つは、一般に主要なpublicationsに付属する特定のphylogenetic tool that専用のオンラインサービスである(例:MAFFT(ref.2)、PhyML(ref.3)、FastME(ref.4)、BOOSTER(ref.5))。そのようなWebサービスの数は、多数のオプションを提供する新しいツールの公開に伴い増加しているが、それらを正しく選択するのは困難である。phylogenetic analysisを実行することは、そのようなツールを繋いで、入力と出力を管理し、それらを保存し、FastaNexus、Newick、Phylipなどの多くのフォーマット間で再フォーマットする。

 したがって、統合Webサービスは、ユーザーが複数のツールをオンラインで繋いでいき実行できるようにすることで、上記の困難の一部に対処するために登場した。 Phylogeny.fr(ref.1)は広く使用され引用されており、CIPRES(ref.6)、TRex(ref.7)、およびPhylemon(ref.8)もこのカテゴリに属している。同じスピリットで、SeaView(ref.9)とMEGA(ref.10)は、系統解析のための統合ソリューションを提供し、ローカルにインストールするスタンドアロンソフトウェアを提供する。これらの統合ソリューションは通常、事前に選択されたツールや分析を考慮しており、ツールの更新とツール間を繋いでいく観点から、進化するのが難しい場合がある。さらに、このような統合ソリューションは10年前は特に興味深いものだったが、現在実行されている分析は、シーケンスの数とサイズ、およびCPU要件に関して大幅に変更されている。

 並行して、scientific workflow systems(Galaxy(ref.11,12))は、複雑で大規模な分析の実行をスケジューリングしながら、消費データと生成データを追跡してデータを適切に管理するのに便利な成熟度に達した。 3番目の種類のソリューションは、そのようなシステムに基づいている。これは、Galaxyを介して複数のphylogenetic toolsへのアクセスを提供するOsiris(ref.13)、または系統発生専用の独自のワークフローマネージャーを実装するArmadillo(ref.14)の場合である。このようなソリューションは、多数のツールとそれらを簡単に結合する方法を提供するため、柔軟性が高く、Guang et al(ref.15)によって説明された統合フレームワークに近づけることができる 。ただし、エンドユーザーがワークフローシステムのグラフィカルユーザーインターフェイスを使用してすべてのツールを選択し、パラメーター化することが期待されるため、エンドユーザーが使用するのは依然として困難である。

 NGPhylogeny.frは、このペーパーで紹介する次世代のPhylogeny.fr Webサービスであり、(i)一般的な範囲を持ち、あらゆるニーズに合う系phylogenetic tools の大きなパネルを提供する。 (ii)柔軟性があり、ツールを簡単に追加、更新、または削除できる。 (iii)スケーラブルで、シンプルで高速な方法を統合し、大規模クラスタでの並列計算を可能にするワークフローシステムに依存することで、大規模な分析をサポートできる。 (iv)ターンキーであり、再現性を確保しながらユーザーが自分のコンピューターでインストールを管理することを避ける。 (v)ユーザー適応型であり、純粋なエンドユーザーから、NGPhylogeny.frを公開サーバーではなく独自のサーバーで使用することを好む可能性のある技術的スキルを持つバイオインフォマティシャンまで、いくつかの使用レベルを提供する。

 そのため、NGPhylogeny.frは2つのコンポーネントで構築されている。(i)ツール実行の管理を扱うGalaxyワークフローシステム、および(ii)Galaxyワークフローシステムをユーザーに透過的に使用するグラフィカルユーザーインターフェイス。次のセクションでは、最初にNGPhylogeny.frをエンドユーザーが使用する方法に焦点を当て、最後のセクションでは、より技術的なスキルを持つ上級ユーザーがそれをさらに活用する方法について説明する。(以下略)

 

Documentation

https://ngphylogeny.fr/documentation

f:id:kazumaxneo:20191104002458p:plain

 

ローカル版

 dockerイメージとして配布されている。ローカルについては、ubuntu18.04 LT Sにてlinux版をテストした(chromeブラウザを使用)。

#1 Starting Galaxy
docker run --privileged=true -p 8080:80 -p 8121:21 -p 8122:22 evolbioinfo/ngphylogeny-galaxy


#2 Starting NGPhylogeny.fr 
#mac
docker run -p 8000:8000 evolbioinfo/ngphylogeny admin admin@admin http://host.docker.internal:8080 adm

#Linux
docker run -p 8000:8000 --net=host evolbioinfo/ngphylogeny admin admin@admin http://localhost:8080 admin

#3
http://127.0.0.1:8000 にアクセス ( open http://127.0.0.1:8000 )。

public webサーバは大きなデータセットにも対応するが、上限がある。大きなデータセットを扱う際はlocalサーバを立てて実行することが推奨されている。

 

使い方

https://ngphylogeny.fr/analysis にアクセスする。

f:id:kazumaxneo:20191104003110p:plain

ここではOne Click (Fully automatic workflow) を選択。Advancedでは全ツールのパラメータを設定して実行可能。

 

 

比較する配列をアップロードするかウィンドウ内にペーストする。

f:id:kazumaxneo:20191104004559p:plain

ここではexampleを選択した。

 

submitボタンを押して開始する。

f:id:kazumaxneo:20191104015931p:plain

 

 

jobが登録 される。

f:id:kazumaxneo:20191104004511p:plain

 jobアップロードから進まない。メンテナンス中かbusyなのかもしれない。以後はローカルの方でテストした結果。

 

 

最初からやり直す。advancedを選択。

f:id:kazumaxneo:20191104021428p:plain

PhyML + SMS (link)を選び、Advanced optinボタンを押してlaunchする。このワークフローでは、PhyML + SMSを使用して、最適な進化モデルを選択し、ツリーが推測される。ただしツリーの推論に長い時間がかかり、非常に大きなデータセットは対応できない可能性があるとドキュメントに記載されている。

ファイルを指定してsubmitする。

f:id:kazumaxneo:20191104021822p:plain

各ツールの右にある+のマークを押すと、そのツールのパラメータを変更できる。

 

先ほどの説明と重複するが、ジョブが開始され、進捗が表示される。画面は定期的にrefreshされる。

f:id:kazumaxneo:20191104021950p:plain

 

個別に実行することもできる(=>トップページのToolsメニューから)

f:id:kazumaxneo:20191104020141p:plain

歯車マークを押すとパラメータを確認できる。

f:id:kazumaxneo:20191104022548p:plain

 

ジョブが終わったものからチェックしたりダウンロードできる。例えばMAFFTのアラインメント結果を見てみる。

f:id:kazumaxneo:20191104022256p:plain

 

MSA viewerを使って視覚化される。

f:id:kazumaxneo:20191104022342p:plain

 

結果

All tree images

f:id:kazumaxneo:20191104022619p:plain

 

newlickをダウンロードしてPhyD3に読み込んだ。

https://phyd3.bits.vib.be/submit.php#

f:id:kazumaxneo:20191104022958p:plain

 

Workspaceでは実行ずみジョブを管理できる(=>トップページのWorkspaceメニューから)。

引用

NGPhylogeny.fr: new generation phylogenetic services for non-specialists
Frédéric Lemoine, Damien Correia, Vincent Lefort, Olivia Doppelt-Azeroual, Fabien Mareuil, Sarah Cohen-Boulakia, Olivier Gascuel
Nucleic Acids Research, Volume 47, Issue W1, 02 July 2019, Pages W260–W265

 
Phylogeny.fr: robust phylogenetic analysis for the non-specialist.
Dereeper A1, Guignon V, Blanc G, Audic S, Buffet S, Chevenet F, Dufayard JF, Guindon S, Lefort V, Lescot M, Claverie JM, Gasc

Nucleic Acids Res. 2008 Jul 1;36(Web Server issue):W465-9.

 

関連