様々なインフォマティクスツールを簡単に実行できるサイバー環境 CyVerse

2019 1/10 追記

　Cyberinfrastructureは、直訳するとサイバー空間のインフラとなる。計算科学の分野では大規模な計算化学の課題に対する解決策を提供するもの、というような意味で使われている（wiki）。CyVerseはこのCyberinfrastructureを提供する、様々なインフォマティクスツールを実行可能なクラウド環境である。元々、米国植物科学コミュニティに貢献するために、iPlant Collaborativeという名前で2008年にNational Science Foundationによって作成されたのが始まりと記載されている。 2015年、iPlantは、ライフサイエンスへのより普遍的なサポートを行うため、CyVerseに改名された。スーパーコンピューティング機能へのアクセスを民主化することで、科学者が将来のソリューションを見つけるための重要なリソースを提供している。

CyVerseについて

http://www.cyverse.org/about

CyVerse wiki

https://pods.iplantcollaborative.org/wiki/dashboard.action

Webinar（50分）

Discovery Environmentにアクセスする。

LAUNCHをクリック。

f:id:kazumaxneo:20180416212652j:plain

log inして立ち上げる。初回はユーザー登録（Register now）をクリックしてIDを手に入れる。

f:id:kazumaxneo:20180416212656j:plain

ブラウザの中にデスクトップが出てきたような感じの環境が出現する。Data（macのFInderに相当）をクリックすると、ウィンドウが出現する。初回はUploadからローカルのファイルをアップロードする。

f:id:kazumaxneo:20180416213450j:plain

ログアウントしても再度ログインすれば、ウィンドウの配置も含め全て復元される。

Simple uploadでも2GBのファイルをuploadできる。例えばgz圧縮したfastqデータをuploadしてみる。

f:id:kazumaxneo:20180416213451j:plain

fastq.gzを指定してuploadをクリック。

f:id:kazumaxneo:20180416213738j:plain

左上のボタンAppsをクリックし、Apps選択ウィンドウを表示する。ウィンドウはクリックして移動したり拡大/縮小できる。知らなければ、もはやクラウドかローカルか分からない。gzと検索。

f:id:kazumaxneo:20180416214440j:plain

４つAppsが見つかった。並列化に対応したコマンドラインのgz解凍ツールのunpigzをクリック（圧縮ならpigz）。（コマンドラインのツールをGUIで操作できるので、これを”Apps"と呼んでいる）

unpigz解析ウィンドウが出てくるので、Inputをクリック=> アップロードしたgz圧縮ファイルを選択。必要ならOutputのパスも指定する。

f:id:kazumaxneo:20180416215130j:plain

Runをクリック。

f:id:kazumaxneo:20180416215428j:plain

進捗状況はAnalysisボタンから確認する。

f:id:kazumaxneo:20180416215630j:plain

終わるとcompletedになる。

指定した出力ディレクトリに解凍したfastqが出力されている。

f:id:kazumaxneo:20180416215733j:plain

ダブルクリックすると中身も表示できる。

f:id:kazumaxneo:20180416221421j:plain

de novo assemblyを行ってみる。Appsウィンドウでassemblyと検索。大量のツールがヒットした（まだ下にかなりスクロールできる）。

f:id:kazumaxneo:20180416220024j:plain

spadesと検索。複数バージョンが登録されている。ありがたい。

f:id:kazumaxneo:20180416220210j:plain

spades3.8を選択。inputにペアエンドのfastq.gzを指定した。

f:id:kazumaxneo:20180416220325j:plain

パラメータを指定する。コマンドラインと同じようなパラメータが指定できる。?をクリックすると簡単な説明も表示される。coverage cutoffを10とした。

f:id:kazumaxneo:20180416220424j:plain

アセンブリなどの計算負荷の高いジョブはHigh performance computing（HPC）として扱われる。詳細はこちらに記載されている（リンク）が、HPCに属するジョブはアメリカの複数の学術機関のクラスタを使い分けてランされているらしい。HPCの並列処理を実行したりして１人でキューをたくさん発生させると（または混雑時など）、ラン開始まで数日かかる可能性がある。要はスパコンの利用時と同じである。

f:id:kazumaxneo:20180416221107j:plain HPCジョブは開始まで時間がかかるため、エラーと勘違いしてラン前に何度も同じジョブを発生させてはいけない（当然ますます遅くなる）。