2020 1/6 タイトル修正
2020 3/2 わかりにくい説明を修正
明けましておめでとうございます。今年もよろしくお願い致します。
2020年初回はDNA解析ソフトUGENEを紹介します。発表はかなり前ですが、今でもアップデートが続いており、塩基配列の編集のみならず、サンガーの波形データの表示やNGSのデータの操作も可能になっています。
*1
Unipro UGENEは、バイオインフォマティクスの専門知識があまりない分子生物学者がデータを管理、分析、視覚化できるよう支援することを主な目的とするマルチプラットフォームのオープンソースソフトウェアである。 UGENEは、広く使用されているバイオインフォマティクスツールを共通のユーザーインターフェイスに統合する。このツールキットは複数の生物学的データ形式をサポートし、リモートデータソースからデータを取得できる。アノテーション付きゲノムシーケンス、次世代シーケンス(NGS)アセンブリデータ、複数のシーケンスアラインメント、系統樹、3D構造などの生物学的オブジェクトの視覚化モジュールを提供する。統合されたアルゴリズムのほとんどは、マルチスレッドと特別なプロセッサ命令の使用により、最大のパフォーマンスが得られるように調整されている。 UGENEには、ローカルリソースまたはHigh Performance Computing(HPC)環境で起動できる再利用可能なワークフローを作成するためのビジュアル環境が含まれている。 UGENEはQtフレームワークを使用してC ++で記述されている。組み込みのプラグインシステムと構造化されたUGENE APIにより、ツールキットの新しい機能を拡張できる。UGENEバイナリは、MS Windows、Linux、およびMac OS Xでhttp://ugene.unipro.ru/download.htmlから無料で入手できる。 UGENEコードはGPLv2の下でライセンスされている。統合ツールのコードライセンスと著作権に関する情報は、ソースバンドルで提供されるLICENSE.3rd_partyファイルに記載されている。
*2
次世代シーケンス(NGS)テクノロジーの出現により、研究者に新しい可能性が開かれた。しかし、より生物学がよりデータ集約型フィールドになると、より多くの生物学者が複雑な計算ツールを使用してNGSデータを処理および分析する方法を学ぶ必要がある。一般的なパイプラインが利用できる場合でも、多くの場合、ベンチサイエンティストがパイプラインツールをインストールして構成するのは時間のかかる面倒な作業が必要になる。 NGSデータ分析ツールの統合された、デスクトップおよび生物学者に優しいフロントエンドは、この分野の生産性を大幅に向上させると考えられる。ここでは、Unipro UGENEデスクトップツールキットに統合されたNGSパイプライン「SAMtoolsを使用したバリアントコール」、「RNAシーケンスデータ分析用のTuxedoパイプライン」、「ChIPシーケンスデータ分析用のシストロームパイプライン」を紹介する。研究者がこれらのパイプラインを異なるデータセットで実行し、結果を保存および調査し、同じパラメーターでパイプラインを再実行するのに役立つ利用可能なUGENEインフラストラクチャについて説明する。これらのパイプラインツールは、UGENE NGSパッケージに含まれている。これらのパイプラインの個々のブロックは、専門ユーザーが独自の高度なワークフローを作成するためにも利用できる。
Quick Start Guide
https://ugene.net/wiki/display/QSG/Quick+Start+Guide
Documentation
http://ugene.net/documentation.html
YouTube channel
http://youtube.com/uniprougene
NGSデータ解析ワークフロー
Metagenomic workflows
DNA editing
インストール
All downloadsよりダウンロードする。ここではmacos10.15の.dmgイメージをダウンロードした。
ダウンロードした.dmgを実行する。
メタゲノム解析ツールも導入する場合、224GBほど追加のディスクスペースが必要になる。
CHIP-seqは23.7GB。
指定したツールがダウンロードされる。
メタゲノムモジュールを指定しているとダウンロードにかなりの時間を要する。
使い方
起動したところ
Open FilesでDNA配列を開く。ウィンドウ内にFASTA配列をペーストする。
直接FASTAファイルを叩いて開いてもOK。
開いたところ。左が配列名。multi-fastaならクロモソームごとに表示される。右下は配列のウィンドウ、右上は配列全体の俯瞰表示になる。
別のファイルの配列を同時に開いている場合、左のウィンドウや上のタブから切り替えする。
右上の俯瞰表示ウィンドウの領域を囲むと、その領域の配列がハイライト表示される。
俯瞰表示ウィンドウの領域をダブルクリックすると、右下の配列ウィンドウがその領域の配列に切り替わる。
右クリック => Go to positionで数値をして飛ぶこともできる。
ゲノム全体から目的の領域に飛ぶには、上のウィンドウでポジションをタイプするのが早い。120000にジャンプ。
また、一番上のバーの▲部分をクリックしてドラッグすることで配列全体の高速スクロールが可能。
2020 3/2 補足
一番上のアイコンを使うとうまく移動できる。▲をスクロールすると、下半分の配列のATGC表示部分がスクロールする。四角の半透明灰色ボックス◽️を動かすと上半分のフィーチャがスクロールする。下半分ウィンドウと上半分ウィンドウは独立しているので、両方のウィンドウで同じ領域を示すにはこの両方のアイコンを移動させる必要がある。
ちなみに、アイコンの配列の領域は、下半分ウィンドウと上半分ウィンドウが同じ領域にあるときは上のウィンドウでも表示される。▲を半透明灰色ボックス◽️の中に収まるように移動してやると、上のウィンドウ内に破線でボックスが表示される(下の画像のGCプロット中央付近の縦長破線ボックスが▲の配列表示部分)。
半透明灰色ボックス◽️を正確に動かすには左端のアイコンを使う。左端のアイコンの一番下にあるボタンをクリックすると半透明灰色ボックス◽️ の表示領域を指定できる。
他は半透明灰色ボックス◽️の拡大/縮小などになる。
このように、染色体クラスの大きな配列もできるだけ直感的に扱えるように工夫されている。
次にボタンについて説明していく。
ORFをクリックすると、3frameでORFが表示される。
ORFの下のRestriction sitesをクリックすると制限酵素部位が表示される。
上のカラフルな円グラフのようなマークを押すと環状表示になる。
環状表示にして制限酵素サイトを表示。
アイコンが見えない場合、右上の>>マークをクリックして隠れたボタンを表示する。
線形表示に戻すには、右上の>>マークから隠れたボタンを表示、円マークをクリック。
カラフルな円マークボタンの右隣のボタンをクリックすると、GCとやATプロットが表示される。
右端に5つあるボタンにも便利な機能がアサインされている。ボタンの一番上は配列検索ボタンになる。
パーフェクトマッチのほか、不完全マッチの配列も検索できる。
上から2つ目のボタンは制限酵素認識部位やメチル化部位などアノテーションの色指定。
上から3つ目のボタンは選択した配列のGCやTmなどの要約統計。
上から4つ目のボタンは選択したプライマー配列を使ったinsilico PCR。
配列ウィンドウからプライマーにする配列を選択してcommnad + Cでコピー、Forwardとreverseにそれぞれ貼り付ける。
Revserseは貼り付けてからウィンドウ右下のreverse compボタン(C⇄)を押して逆相補鎖にする。
Forwardについて赤字でlow Tmの警告が出ている。必要に応じて配列を修正する。また最大増幅サイズなどのパラメータを指定する。それから下のFind productsボタンをクリック。ここではForward primerのTmが低い警告が出ており、下のボタンもFind products anywayとなっているが、気にせず実行。
増幅部位のサイズとTaが表示され、配列がハイライト表示される。サイズとTa部分をダブルクリックすると別ウィンドウにジャンプする。
上に並んでいるそのほかのボタンは、メニューの表示/非表示、領域の配列の画像出力、reverse comp、copyなどになります。明日は残りのボタンについて簡単に説明します。
追記
引用
1 Unipro UGENE: a unified bioinformatics toolkit
Okonechnikov K, Golosova O, Fursov M; UGENE team
Bioinformatics, Volume 28, Issue 8, 15 April 2012, Pages 1166–1167
2 Unipro UGENE NGS pipelines and components for variant calling, RNA-seq and ChIP-seq data analyses
Golosova O, Henderson R, Vaskin Y, Gabrielian A, Grekhov G, Nagarajan V, Oler AJ, Quiñones M, Hurt D, Fursov M1, Huyen Y
PeerJ. 2014 Nov 4;2:e644. doi: 10.7717/peerj.644. eCollection 2014