macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

様々なインフォマティクスツールを簡単に実行できるサイバー環境 CyVerse

 

 Cyberinfrastructureは、直訳するとサイバー空間のインフラとなる。計算科学の分野では大規模な計算化学の課題に対する解決策を提供するもの、というような意味で使われている(wiki)。CyVerseはこのCyberinfrastructureを提供する、様々なインフォマティクスツールを実行可能なクラウド環境である。元々、米国植物科学コミュニティに貢献するために、iPlant Collaborativeという名前で2008年にNational Science Foundationによって作成されたのが始まりと記載されている。 2015年、iPlantは、ライフサイエンスへのより普遍的なサポートを行うため、CyVerseに改名された。 スーパーコンピューティング機能へのアクセスを民主化することで、科学者が将来のソリューションを見つけるための重要なリソースを提供している。

 

CyVerseについて

http://www.cyverse.org/about

CyVerse wiki

https://pods.iplantcollaborative.org/wiki/dashboard.action

Webinar(50分)

 

Discovery Environmentにアクセスする。

f:id:kazumaxneo:20180416212647j:plain

LAUNCHをクリック。

f:id:kazumaxneo:20180416212652j:plain

log inして立ち上げる。初回はユーザー登録(Register now)をクリックしてIDを手に入れる。

f:id:kazumaxneo:20180416212656j:plain

 

ブラウザの中にデスクトップが出てきたような感じの環境が出現する。Data(macのFInderに相当)をクリックすると、ウィンドウが出現する。初回はUploadからローカルのファイルをアップロードする。

f:id:kazumaxneo:20180416213450j:plain

ログアウントしても再度ログインすれば、ウィンドウの配置も含め全て復元される。 

 

 

Simple uploadでも2GBのファイルをuploadできる。例えばgz圧縮したfastqデータをuploadしてみる。

f:id:kazumaxneo:20180416213451j:plain

 

fastq.gzを指定してuploadをクリック。

f:id:kazumaxneo:20180416213738j:plain

 

左上のボタンAppsをクリックし、Apps選択ウィンドウを表示する。ウィンドウはクリックして移動したり拡大/縮小できる。知らなければ、もはやクラウドかローカルか分からない。gzと検索。

f:id:kazumaxneo:20180416214440j:plain

4つAppsが見つかった。並列化に対応したコマンドラインのgz解凍ツールのunpigzをクリック(圧縮ならpigz)。

 

unpigz解析ウィンドウが出てくるので、Inputをクリック=> アップロードしたgz圧縮ファイルを選択。必要ならOutputのパスも指定する。

f:id:kazumaxneo:20180416215130j:plain

 

Runをクリック。

f:id:kazumaxneo:20180416215428j:plain

 

進捗状況はAnalysisボタンから確認する。

f:id:kazumaxneo:20180416215630j:plain

終わるとcompletedになる。

 

指定した出力ディレクトリに解凍したfastqが出力されている。

f:id:kazumaxneo:20180416215733j:plain

 

ダブルクリックすると中身も表示できる。

f:id:kazumaxneo:20180416221421j:plain

 

 

de novo assemblyを行ってみる。Appsウィンドウでassemblyと検索。大量のツールがヒットした(まだ下にかなりスクロールできる)。

f:id:kazumaxneo:20180416220024j:plain

 

spadesと検索。複数バージョンが登録されている。ありがたい。

f:id:kazumaxneo:20180416220210j:plain

 

spades3.8を選択。inputにペアエンドのfastq.gzを指定した。

f:id:kazumaxneo:20180416220325j:plain

 

パラメータを指定する。コマンドラインと同じようなパラメータが指定できる。?をクリックすると簡単な説明も表示される。coverage cutoffを10とした。

f:id:kazumaxneo:20180416220424j:plain

 

アセンブリなどの計算負荷の高いジョブはHigh performance computing(HPC)として扱われる。詳細はこちらに記載されている(リンク)が、HPCに属するジョブはアメリカの複数の学術機関のクラスタを使い分けてランされているらしい。HPCの並列処理を実行したりして1人でキューをたくさん発生させると(または混雑時など)、ラン開始まで数日かかる可能性がある。要はスパコンの利用時と同じである。

f:id:kazumaxneo:20180416221107j:plainHPCジョブは開始まで時間がかかるため、エラーと勘違いしてラン前に何度も同じジョブを発生させてはいけない(当然ますます遅くなる)。

 

終わると該当フォルダにアセンブリされた配列が出力される。出力されるファイルはコマンドラインでspadesを実行したときと変わらない。 

 

 

大量のツールが登録されている。

mappingで検索。

f:id:kazumaxneo:20180416221712j:plain

indelで検索。

f:id:kazumaxneo:20180416221836j:plain

SNPで検索。

f:id:kazumaxneo:20180416221930j:plain

metagenomeで検索。

f:id:kazumaxneo:20180416221937j:plain

long readで検索。

f:id:kazumaxneo:20180416222115j:plain

genomeで検索。

f:id:kazumaxneo:20180416222155j:plain

RNAで検索。

f:id:kazumaxneo:20180416222237j:plain

bedで検索。

f:id:kazumaxneo:20180416222333j:plain

taxonで検索。

f:id:kazumaxneo:20180416222418j:plain

statisticsで検索。

f:id:kazumaxneo:20180416222516j:plain

bacteriaで検索。

f:id:kazumaxneo:20180416222628j:plain

filterで検索。

f:id:kazumaxneo:20180416222709j:plain

gwasで検索。

f:id:kazumaxneo:20180416222755j:plain

chipで検索。

f:id:kazumaxneo:20180416222822j:plain

errorで検索。

f:id:kazumaxneo:20180416223024j:plain

trimmingで検索。

f:id:kazumaxneo:20180416223112j:plain

 

分野によって数に大きな偏りはあるが、このようにNGSの主流の解析ツールなら非常に充実している。TopicからもAppsは探索できる。

f:id:kazumaxneo:20180416223532j:plain

 

joveで、CyVerseを使いtranscriptome解析を行う論文が発表されている。ビデオ学術誌なので動画があります。5分で概要をつかめます。

https://www.jove.com/video/55009/leveraging-cyverse-resources-for-de-novo-comparative-transcriptomics

 Appsを組み合わせて自動で進めるワークフローも構築できるようです。詳細はWebinarやwikiでチェックしてください。

https://pods.iplantcollaborative.org/wiki/dashboard.action

 

 

 

追記

GB以上の実験データをいきなり使うと時間がかかるので、最初はコントロールとなるようなファイルの小さいテストデータで試してみてください。

 

引用

Bringing numerous methods for expression and promoter analysis to a public cloud computing service.

Polanski K, Gao B, Mason SA, Brown P, Ott S, Denby KJ, Wild DL

Bioinformatics. 2018 Mar 1;34(5):884-886.

 

Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms

Blake L. Joyce, Asher K. Haug-Baltzel, Jonathan P. Hulvey, Fiona McCarthy, Upendra Kumar Devisetty, Eric Lyons

J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

 

What is cyberinfrastructure?