macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

DNA解析ソフト4 次世代シークエンシングデータも扱える Unipro UGENE その1

2020 1/6 タイトル修正

2020 3/2 わかりにくい説明を修正

 

明けましておめでとうございます。今年もよろしくお願い致します。

2020年初回はDNA解析ソフトUGENEを紹介します。発表はかなり前ですが、今でもアップデートが続いており、塩基配列の編集のみならず、サンガーの波形データの表示やNGSのデータの操作も可能になっています。

 

 *1

 Unipro UGENEは、バイオインフォマティクスの専門知識があまりない分子生物学者がデータを管理、分析、視覚化できるよう支援することを主な目的とするマルチプラットフォームオープンソースソフトウェアである。 UGENEは、広く使用されているバイオインフォマティクスツールを共通のユーザーインターフェイスに統合する。このツールキットは複数の生物学的データ形式をサポートし、リモートデータソースからデータを取得できる。アノテーション付きゲノムシーケンス、次世代シーケンス(NGS)アセンブリデータ、複数のシーケンスアラインメント、系統樹、3D構造などの生物学的オブジェクトの視覚化モジュールを提供する。統合されたアルゴリズムのほとんどは、マルチスレッドと特別なプロセッサ命令の使用により、最大のパフォーマンスが得られるように調整されている。 UGENEには、ローカルリソースまたはHigh Performance Computing(HPC)環境で起動できる再利用可能なワークフローを作成するためのビジュアル環境が含まれている。 UGENEはQtフレームワークを使用してC ++で記述されている。組み込みのプラグインシステムと構造化されたUGENE APIにより、ツールキットの新しい機能を拡張できる。UGENEバイナリは、MS WindowsLinux、およびMac OS Xhttp://ugene.unipro.ru/download.htmlから無料で入手できる。 UGENEコードはGPLv2の下でライセンスされている。統合ツールのコードライセンスと著作権に関する情報は、ソースバンドルで提供されるLICENSE.3rd_partyファイルに記載されている。

 

*2

 次世代シーケンス(NGS)テクノロジーの出現により、研究者に新しい可能性が開かれた。しかし、より生物学がよりデータ集約型フィールドになると、より多くの生物学者が複雑な計算ツールを使用してNGSデータを処理および分析する方法を学ぶ必要がある。一般的なパイプラインが利用できる場合でも、多くの場合、ベンチサイエンティストがパイプラインツールをインストールして構成するのは時間のかかる面倒な作業が必要になる。 NGSデータ分析ツールの統合された、デスクトップおよび生物学者に優しいフロントエンドは、この分野の生産性を大幅に向上させると考えられる。ここでは、Unipro UGENEデスクトップツールキットに統合されたNGSパイプライン「SAMtoolsを使用したバリアントコール」、「RNAシーケンスデータ分析用のTuxedoパイプライン」、「ChIPシーケンスデータ分析用のシストロームパイプライン」を紹介する。研究者がこれらのパイプラインを異なるデータセットで実行し、結果を保存および調査し、同じパラメーターでパイプラインを再実行するのに役立つ利用可能なUGENEインフラストラクチャについて説明する。これらのパイプラインツールは、UGENE NGSパッケージに含まれている。これらのパイプラインの個々のブロックは、専門ユーザーが独自の高度なワークフローを作成するためにも利用できる。

 

http://ugene.net HP

f:id:kazumaxneo:20200104205557p:plain

 

Quick Start Guide

https://ugene.net/wiki/display/QSG/Quick+Start+Guide

Documentation

http://ugene.net/documentation.html

YouTube channel

http://youtube.com/uniprougene

 


NGSデータ解析ワークフロー

Metagenomic workflows

DNA editing

 

インストール

All downloadsよりダウンロードする。ここではmacos10.15の.dmgイメージをダウンロードした。

 

ダウンロードした.dmgを実行する。

メタゲノム解析ツールも導入する場合、224GBほど追加のディスクスペースが必要になる。

f:id:kazumaxneo:20200101205007p:plain

CHIP-seqは23.7GB。

f:id:kazumaxneo:20200101205012p:plain

指定したツールがダウンロードされる。

f:id:kazumaxneo:20200101205643p:plain

メタゲノムモジュールを指定しているとダウンロードにかなりの時間を要する。

 

使い方

起動したところ

f:id:kazumaxneo:20191231132849p:plain

 

 

Open FilesでDNA配列を開く。ウィンドウ内にFASTA配列をペーストする。

f:id:kazumaxneo:20200101213507p:plain

直接FASTAファイルを叩いて開いてもOK。

f:id:kazumaxneo:20200101213722p:plain

 

開いたところ。左が配列名。multi-fastaならクロモソームごとに表示される。右下は配列のウィンドウ、右上は配列全体の俯瞰表示になる。

f:id:kazumaxneo:20200101214201p:plain

別のファイルの配列を同時に開いている場合、左のウィンドウや上のタブから切り替えする。

f:id:kazumaxneo:20200101214924p:plain

 

右上の俯瞰表示ウィンドウの領域を囲むと、その領域の配列がハイライト表示される。

f:id:kazumaxneo:20200101215210p:plain

 

俯瞰表示ウィンドウの領域をダブルクリックすると、右下の配列ウィンドウがその領域の配列に切り替わる。

f:id:kazumaxneo:20200101215517p:plain

 

右クリック => Go to positionで数値をして飛ぶこともできる。

f:id:kazumaxneo:20200101215658p:plain

 

ゲノム全体から目的の領域に飛ぶには、上のウィンドウでポジションをタイプするのが早い。120000にジャンプ。

f:id:kazumaxneo:20200106021520p:plain

 

また、一番上のバーの部分をクリックしてドラッグすることで配列全体の高速スクロールが可能。

f:id:kazumaxneo:20200102221606p:plain

 

2020 3/2 補足

一番上のアイコンを使うとうまく移動できる。をスクロールすると、下半分の配列のATGC表示部分がスクロールする。四角の半透明灰色ボックス◽️を動かすと上半分のフィーチャがスクロールする。下半分ウィンドウと上半分ウィンドウは独立しているので、両方のウィンドウで同じ領域を示すにはこの両方のアイコンを移動させる必要がある。

f:id:kazumaxneo:20200302113647p:plain

 

ちなみに、アイコンの配列の領域は、下半分ウィンドウと上半分ウィンドウが同じ領域にあるときは上のウィンドウでも表示される。を半透明灰色ボックス◽️の中に収まるように移動してやると、上のウィンドウ内に破線でボックスが表示される(下の画像のGCプロット中央付近の縦長破線ボックスがの配列表示部分)。

f:id:kazumaxneo:20200302114224p:plain

 

半透明灰色ボックス◽️を正確に動かすには左端のアイコンを使う。左端のアイコンの一番下にあるボタンをクリックすると半透明灰色ボックス◽️ の表示領域を指定できる。

f:id:kazumaxneo:20200302114548p:plain

他は半透明灰色ボックス◽️の拡大/縮小などになる。

 

このように、染色体クラスの大きな配列もできるだけ直感的に扱えるように工夫されている。

 

 

次にボタンについて説明していく。

ORFをクリックすると、3frameでORFが表示される。

f:id:kazumaxneo:20200101220032p:plain

 

ORFの下のRestriction sitesをクリックすると制限酵素部位が表示される。

f:id:kazumaxneo:20200101220154p:plain

 

上のカラフルな円グラフのようなマークを押すと環状表示になる。

f:id:kazumaxneo:20200101221333p:plain

 環状表示にして制限酵素サイトを表示。

f:id:kazumaxneo:20200101221623p:plain

アイコンが見えない場合、右上の>>マークをクリックして隠れたボタンを表示する。

 

線形表示に戻すには、右上の>>マークから隠れたボタンを表示、円マークをクリック。

f:id:kazumaxneo:20200101221357p:plain

 

カラフルな円マークボタンの右隣のボタンをクリックすると、GCとやATプロットが表示される。

f:id:kazumaxneo:20200106021007p:plain



 

 右端に5つあるボタンにも便利な機能がアサインされている。ボタンの一番上は配列検索ボタンになる。

f:id:kazumaxneo:20200101222607p:plain

 

パーフェクトマッチのほか、不完全マッチの配列も検索できる。

f:id:kazumaxneo:20200101225907p:plain

 

上から2つ目のボタンは制限酵素認識部位やメチル化部位などアノテーションの色指定。

f:id:kazumaxneo:20200101222447p:plain

 

上から3つ目のボタンは選択した配列のGCやTmなどの要約統計。

f:id:kazumaxneo:20200102193757p:plain

 

上から4つ目のボタンは選択したプライマー配列を使ったinsilico PCR

f:id:kazumaxneo:20200102194502p:plain

 

配列ウィンドウからプライマーにする配列を選択してcommnad + Cでコピー、Forwardとreverseにそれぞれ貼り付ける。

f:id:kazumaxneo:20200102194646p:plain

 

Revserseは貼り付けてからウィンドウ右下のreverse compボタン(C⇄)を押して逆相補鎖にする。

f:id:kazumaxneo:20200102194712p:plain

 

Forwardについて赤字でlow Tmの警告が出ている。必要に応じて配列を修正する。また最大増幅サイズなどのパラメータを指定する。それから下のFind productsボタンをクリック。ここではForward primerのTmが低い警告が出ており、下のボタンもFind products anywayとなっているが、気にせず実行。

f:id:kazumaxneo:20200102195116p:plain

 

増幅部位のサイズとTaが表示され、配列がハイライト表示される。サイズとTa部分をダブルクリックすると別ウィンドウにジャンプする。

f:id:kazumaxneo:20200102195728p:plain

 

上に並んでいるそのほかのボタンは、メニューの表示/非表示、領域の配列の画像出力、reverse comp、copyなどになります。明日は残りのボタンについて簡単に説明します。  

追記


引用

1   Unipro UGENE: a unified bioinformatics toolkit
Okonechnikov K, Golosova O, Fursov M; UGENE team
Bioinformatics, Volume 28, Issue 8, 15 April 2012, Pages 1166–1167

 

2  Unipro UGENE NGS pipelines and components for variant calling, RNA-seq and ChIP-seq data analyses
Golosova O, Henderson R, Vaskin Y, Gabrielian A, Grekhov G, Nagarajan V, Oler AJ, Quiñones M, Hurt D, Fursov M1, Huyen Y

PeerJ. 2014 Nov 4;2:e644. doi: 10.7717/peerj.644. eCollection 2014