macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(初心者向け)mauveを使ってバクテリアゲノムを比較する

 

よく似たゲノム同士を直接比較して、変異がある遺伝子を検出したいことがあります。ここでは、コマンドラインのツールや商用ツールに頼らず、GUIで動作するツールを使ってゲノム比較する手順を書いてみます。

 

1、ソフトのインストール

前にも紹介しましたが、GUI環境で動くゲノム比較ツールとして、mauveがよく知られています。今回はこれを使用しましょう。多少GUIjava特有の癖がありますが、10年以上各OS向けに動作する状態で保守されており、安定に動きます。

 

これをダウンロードします。

http://darlinglab.org/mauve/mauve.html

f:id:kazumaxneo:20191031235310p:plain

ダウンロードリンクです。macwindowslinux版があります。

http://darlinglab.org/mauve/download.html

f:id:kazumaxneo:20191031235420p:plain

指示に従ってインストールします。

 

インストールが終わって起動したことろ。

f:id:kazumaxneo:20191101000803p:plain

 

 

2、ゲノム配列の準備

ここでは、シーケンシングリードをde novoアセンブリして得たcontig配列をクエリとして、ベストマッチの公開ゲノムと比較してみます。ここではサルモネラのデータを使います(ヒトとの関わりが多く、単離もしやすいのでシーケンシングデータも多い)。SRA Explorer紹介)を使ってsalmonellaのpublicのシーケンシングデータをダウンロードし(*1)、de novoアセンブル(shovil)、アセンブリのエラー修正(pilonx3)、そしてDFAST(紹介)を使った自動アノテーション付けまで実行してあります。

 

上記手順で得たcontigs配列を使ってblastn解析を実行します。

https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastSearch

ファイルを選択、からcontig配列をアップします。

f:id:kazumaxneo:20191101003908p:plain

Databseはnr/nt、Othersを選択します。

 

ランが終わったところ。最近ベータ版の変更期間を経て新バージョンに変更されました。

f:id:kazumaxneo:20191101005851p:plain

 

Results forからcontig配列を変更できます。

f:id:kazumaxneo:20191101005858p:plain

 

ラン後に閾値のソフトフィルタリングができます。ここではE value 0かIdentity 99-100にします。

f:id:kazumaxneo:20191101010202p:plain


Taxonomyタブのlineage(系統)タブかTaxonomyタブに変更。

f:id:kazumaxneo:20191101010328p:plain

NCBI taxonomyでは以下の分類と判定されました。別のcontigに切り替えて、同じ結果になるか確認して下さい。

f:id:kazumaxneo:20191101010549p:plain

Descriptionタブに戻ります。

f:id:kazumaxneo:20191101010754p:plain

 

NCBIからベストマッチ、ここでは99.59% identicalのSalmonella enterica subsp. enterica serovar Typhimurium strain SAP17-7299 とSalmonella enterica subsp. enterica serovar Typhimurium strain RM10961の配列ダウンロードします。

f:id:kazumaxneo:20191101011744p:plain

 

Sequence ID: CP040566.1を選択。右上のSend to => Complete Record => File => GenBank(ジェンバンクと読む、fullの方を選ぶ)=> Create fileでダウンロード開始します。

f:id:kazumaxneo:20191101011834p:plain

 

3つファイルが準備できました。

f:id:kazumaxneo:20191101013029p:plain

 

3、genome比較

ここではpregressiveMauve(ref.2)を使います。

f:id:kazumaxneo:20191101013317p:plain

右端のボタンでリスト表示に切り替え、目的のファイルを探します。

f:id:kazumaxneo:20191101013319p:plain

登録したらOutputファイルのパスを記載して実行します。

f:id:kazumaxneo:20191101021858p:plain

 

数分で結果が表示されました。(*2)。上のメニューから拡大、縮小、移動などができます。

f:id:kazumaxneo:20191101022213p:plain

 

GenBankを使っているので、遺伝子とアノテーション表示されます。

f:id:kazumaxneo:20191101023326p:plain

 

exportからSNV、indelをexportできます。

SNV出力。

f:id:kazumaxneo:20191101022856p:plain

 

補足

変異を持っている遺伝子が同定できたら、そのタンパク質配列を取り出し、KAASを使ってアノテーションをかけてみましょう。KAASはベストヒットに基づいてKEGG orthology (KO) identifierをアサインし、KEGG pathwayにリンクしてくれます。

https://www.genome.jp/kegg/kaas/

 

今回はここまでにします。Mauveを使うことで、塩基置換、スモールサイズのindelを検出することができました。

 

追記

比較する株が公開されているゲノム配列と比べて大きく違う場合、例えば塩基置換のコールが1千~10万出てしまう時は、上記の手順では難しくなります。その場合でも何とか比較の糸口を掴みたいとなると、タンパク質レベルで比較するやり方もあります。以前紹介したOrthovenn2を使えば、共通・非共通のタンパク質群を検出して、さらにGOエンリッチメント解析などを実行できます。参考にして下さい。


引用

Mauve: Multiple Alignment of Conserved Genomic Sequence With Rearrangements
Aaron C.E. Darling, Bob Mau, Frederick R. Blattner, Nicole T. Perna

Genome Res. 2004 Jul; 14(7): 1394–1403

 

progressiveMauve: multiple genome alignment with gene gain, loss and rearrangement

Darling AE1, Mau B, Perna NT

PLoS One. 2010 Jun 25;5(6):e11147

 

KAAS: an automatic genome annotation and pathway reconstruction server
Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M

Nucleic Acids Res. 2007 Jul

 

関連


 

*1

手頃なサイズのものを適当に選んでいます。

 

*2

ラン中にエラーが出たら、アノテーションファイルが対応していない可能性があります。GenBankではなくゲノム配列を使うか、NCBIからゲノム配列をダウンロードして、DFASTで再アノテーションすることで解決することがあります。