macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ラージゲノムにも対応したdot plot解析ツール D-GENIES

 

 ドットプロットは、2組のシーケンスを視覚的に比較するために一般的に使用される。それらは挿入、欠失、逆位またはリピートを容易に理解できる方法で提示する。可変の線の太さ、線の形または色を使用して類似点の差異を表すことができる。産生されるゲノムアセンブリの数が増加するにつれて、大きなゲノムのドットプロットを生成するための使い易く効率的なツールが必要とされている。

 既存のドットプロットツールは、2世代に分類することができる。最初の、そして最も古いものは静的なグラフィックスを生成するコマンドラインツールで構成され、他にもtupple_plot(Szafranski、Jahn&Platzer、2006)とdot-matrix(Sonnhammer&Durbin、1995)が含まれる。これらは通常2つの処理ステップをつなぎ、最初のステップは、一致ファイルを生成し、第2のステップでそれらのファイルからグラフィック出力がレンダリングされる。それらはしばしば単一のシーケンスFASTAファイルに限定され、生成されたグラフィックとの相互作用は何もできない。どちらのツールもUnixコンピュータ上でのみ動作している。第2世代のソフトウェアパッケージは、プラットフォームに依存せず、ユーザーフレンドリーになるためJavaで開発された。 JDotter(Brodie、Roper&Upton、2004)、Gepard(Krumsiek、Arnold&Rattei、2007)、r2cat(Husemann&Stoye、2009)などのツールが含まれている。視覚的な比較のため斜め方向のアラインメントマッチを最大にするために、シーケンスの向きおよび順序などの新しい動的機能を追加することをユーザのインタラクションに許可している。これらのツールには、入力シーケンスのサイズ制限がある。例えば、Gepardはヒト1番染色体(wiki)とクエリをアライメントさせて結果をプロットするのに1時間以上かかる。

(1段落省略)

私たち(著者ら)は、1時間10分で全ヒトゲノム対全チンパンジーゲノムのドットプロットを作成することを可能にする、インタラクティブかつ迅速で使い易いスタンドアロンおよびウェブアプリケーションであるD-GENIESを発表する。

 高速ドットプロット計算

D-GENIESは、非常に大きな低類似のマルチFASTAファイルをマップすることができる最新の核酸配列アラインメントプログラムの1つであるminimap2(Li、2017)(紹介)を利用している。 D-GENIESは、核酸配列のドットプロットのみを生成することができる。 メモリ消費量を抑え、処理時間を短縮するために、プログラムは染色体などの大規模な配列クエリーを10メガベースのチャンクに分割する。 処理時間とメモリ消費量は、論文の結果と議論のセクションに示されている。

 

 

 

contigのリファレンスに沿ったソート機能(順番入れ替え、向き補正)も備えています。

オンラインマニュアル

http://dgenies.toulouse.inra.fr/documentation/run

D-GENIES Github

D-GENIESに関するツイート。

 

使い方

1、http://dgenies.toulouse.inra.fr にアクセスする。

f:id:kazumaxneo:20180824125435j:plain

2、メニューのRunを選択。Launchxウインドウに、E mailアドレス、ターゲット(例えば complete genome配列)とクエリ(例えばアセンブリして得たcontig配列)を記載する。Alignment は、defaultではminimap2となっている。mashmap(紹介)は、メモリ制限に引っかかった場合に使う。ただし、75%以上の良く似た配列同士の比較に限定されている。

f:id:kazumaxneo:20180825091956p:plain

圧縮が推奨されている。ファイルサイズ上限は圧縮した状態で1Gb。

対応拡張子

Fasta: fa, fasta, fna, fa.gz, fasta.gz, fna.gz
Index: idx 

  

3、ジョブが終わるとメールで通知される。

Resultsウィンドウ。

f:id:kazumaxneo:20180825095102p:plain

 

上のメニューから、表示するクロモソームやcontgを限定できる。

f:id:kazumaxneo:20180825095640p:plain

 

右端のパラメータパネルでは、動的にdot plotパラメータを変更できる。線の太さなどの見た目の変更の他、短い配列のヒットやリピートの繰り返しヒットをフィルタリングができる。

f:id:kazumaxneo:20180825095233p:plain

詳細はオンラインマニュアル参照 (http://dgenies.toulouse.inra.fr/documentation/result )

 

カラースキームをクリックすると、identityによる色分けを変更できる。

f:id:kazumaxneo:20180825103434p:plain

 

右端のSort contigsをクリックすると、dot plotが斜め方向に直線的になるよう、クエリの配列がソートし直される。

f:id:kazumaxneo:20180825103147p:plain

ソートしてもdot plotが揃わなかった領域は、ゲノムのリアレンジメントやミスアセンブリが疑われる。sortされたFASTA配列は、右上のexportボタンからダウンロードできる(Dot plot表示の解釈: http://dgenies.toulouse.inra.fr/documentation/dotplot )。

 

右端のsummaryボタンを押すとidentityの要約が表示される。

 

f:id:kazumaxneo:20180825104207p:plain

 

使いやすいツールですね。 3つ以上のゲノムの比較ならD-GENIESでソートしてMauveやArtemis comarison toolitに持ち込むのが楽そうです。

 Mauveには、contigをソートしてから比較する機能もあります。

引用

D-GENIES: dot plot large genomes in an interactive, efficient and simple way
Cabanettes F, Klopp C
PeerJ. 2018 Jun 4;6:e4958.