macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Reference-assisted assemblyのツール: CSARをwebで使える CSAR-web

 

 DNAシーケンシング技術の継続的な進歩により、適度なコストでますます多くのゲノムが迅速にシーケンシングできるようになっている(論文より ref.1)。しかしながら、現在のDNAシーケンシングプラットフォームから生成された膨大な数のリードのアセンブリには依然として課題が残っている(ref.2)。シークエンシングエラーやリピートのために、ほとんどのアセンブリは一般にコンティグと呼ばれる数百または数千の断片化された配列からなるドラフトゲノムになる。完全なゲノムのavailabilityはシーケンスデータの分析および解釈にとって重要である。原則として、ドラフトゲノムのコンティグが多いほど、下流の分析が難しくなる。ドラフトゲノムのより完全なシーケンスを得るために、そのコンティグは、通常、scaffoldsと呼ばれるより大きなギャップ含有配列に順序付けられ、方向性が決められ、それによりコンティグ間のギャップを後続のgap closureプロセスで満たすことができる。

 Scaffoldingプロセスでは、利用可能な関連生物のゲノム配列をリファレンス(またはテンプレート)として使用し、ドラフトゲノム中のコンティグを順序付けし方向付けるためのすることができる。現在、多くのそのようリファレンスベースのscaffoldingツールが利用可能である(ref.4-12)。これらのすべての背後にあるメソッドは、原則的に、アライメントベースのアルゴリズム(ref.4-9)とリアレンジメントベースのアルゴリズム(ref.10-12)の2つの主なカテゴリに分類される。アラインメントに基づくscaffoldingアルゴリズムは、最初にドラフトゲノムのコンティグ(またはコンティグ末端)をリファレンス配列とアライメントさせ、次いでリファレンス上でのマッチした位置に従ってコンティグをscaffoldingしようとする。ゲノム構造を考慮することによって、リアレンジメントベースのアルゴリズムは、ドラフトゲノムとリファレンスゲノムとの間で保存された遺伝子(またはゲノムマーカー)の順序が類似するような方法でscaffoldingを行う。

 実際、上記のリファレンスベースのscaffoldersのうち利用されているリファレンスゲノムが不完全でも機能するのは少数で、Projector2(ref.4)(紹介)、OSLay(ref.5)、Mauve Aligner(ref.7)(紹介)、r2cat(ref.8)などに止まる。前述したように、ほとんどのシーケンシングされたゲノムはドラフト(ref.13)であり、完全なリファレンスゲノムがscaffoldingには利用可能でない場合がある。近年、著者らは効率的なリアレンジメントベースのscaffoldingアルゴリズム(ref.14)を使用して不完全なリファレンスゲノムでも利用できるCSAR(Conge Scaffolding tool for Algebraic Rearrangements)(ref.15)(紹介)を開発した。著者らはまた、CSARが、感度、精度、F-score、ゲノムカバレッジ、NGA50、および実行時間などの多くの評価基準の点で、Projector2、OSLay、Mauve Alignerよりも優れたツールであることを実証するためにいくつかの実データセットを使用した。 CSARは感度、精度、F-score、ゲノムカバレッジ、NGA50の点でr2catよりも優れていた(詳細は補足資料を参照)。しかし、CSARはスタンドアローンのアプリケーションで、PHPやMUMmerなどの余分なソフトウェアをローカルコンピュータにインストールする必要があった。実際には、Unix / Linuxシステムやコマンドラインからプログラムを実行するのに慣れていない、または快適ではないユーザにとっては、これは不便かもしれない。そこで本研究ではCSAR-webと呼ばれるCSARのWebサーバ版を紹介する。 CSAR-webはユーザにCSARを実行するための操作しやすいインターフェイスを提供し、スキャフォールディング結果をグラフィカルモード(スケーラブルドットプロット)で出力することで、scaffoldsの詳細を表示しユーザーがscaffoldingされたコンティグの正しさを視覚的に検証できるようにした。

 

マニュアル

https://lu168.cs.nthu.edu.tw/CSAR-web/index.php#help

CSAR-webに関するツイート。

CSAR紹介。

 

 使い方

CSAR-web にアクセスする。

f:id:kazumaxneo:20180825113853p:plain

"ファイルを選択"をクリックして、ターゲットのFASTAとリファレンスのFASTAをアップロードする。ここではExample データの1つのアセンブリ結果を表示してみる。

f:id:kazumaxneo:20180825114847p:plain

アライメントにはMummerのnucmerとpromerが使える。 

 

結果

Input dataのタブ。

f:id:kazumaxneo:20180825114909p:plain

 

Dotplot validationのタブ。リファレンスに沿ってcontigがソートされている。

f:id:kazumaxneo:20180825115023p:plain

 

Scaffolds of Targetsのタブでは、リファレンスに沿ってソートされScaffoldingされたcontigの情報が表示される。

f:id:kazumaxneo:20180825145355p:plain

リファレンスに従って順序づけられ、方向が決められたcontigのリストと、contig同士が100のNNN...で連結されたFASTAがダウンロードできる。

 

 

引用

CSAR-web: a web server of contig scaffolding using algebraic rearrangements.
Chen KT, Lu CL

Nucleic Acids Res. 2018 Jul 2;46(W1)

 

CSAR: a contig scaffolding tool using algebraic rearrangements
Chen KT, Liu CL, Huang SH, Shen HT, Shieh YK, Chiu HT, Lu CL

Bioinformatics. 2018 Jan 1;34(1):109-111