よく似たゲノム同士を直接比較して、変異がある遺伝子を検出したいことがあります。ここでは、コマンドラインのツールや商用ツールに頼らず、GUIで動作するツールを使ってゲノム比較する手順を書いてみます。
1、ソフトのインストール
前にも紹介しましたが、GUI環境で動くゲノム比較ツールとして、mauveがよく知られています。今回はこれを使用しましょう。多少GUIにjava特有の癖がありますが、10年以上各OS向けに動作する状態で保守されており、安定に動きます。
これをダウンロードします。
http://darlinglab.org/mauve/mauve.html
ダウンロードリンクです。mac、windows、linux版があります。
http://darlinglab.org/mauve/download.html
指示に従ってインストールします。
インストールが終わって起動したことろ。
2、ゲノム配列の準備
ここでは、シーケンシングリードをde novoアセンブリして得たcontig配列をクエリとして、ベストマッチの公開ゲノムと比較してみます。ここではサルモネラのデータを使います(ヒトとの関わりが多く、単離もしやすいのでシーケンシングデータも多い)。SRA Explorer(紹介)を使ってsalmonellaのpublicのシーケンシングデータをダウンロードし(*1)、de novoアセンブル(shovil)、アセンブリのエラー修正(pilonx3)、そしてDFAST(紹介)を使った自動アノテーション付けまで実行してあります。
上記手順で得たcontigs配列を使ってblastn解析を実行します。
https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastSearch
ファイルを選択、からcontig配列をアップします。
Databseはnr/nt、Othersを選択します。
ランが終わったところ。最近ベータ版の変更期間を経て新バージョンに変更されました。
Results forからcontig配列を変更できます。
ラン後に閾値のソフトフィルタリングができます。ここではE value 0かIdentity 99-100にします。
Taxonomyタブのlineage(系統)タブかTaxonomyタブに変更。
NCBI taxonomyでは以下の分類と判定されました。別のcontigに切り替えて、同じ結果になるか確認して下さい。
Descriptionタブに戻ります。
NCBIからベストマッチ、ここでは99.59% identicalのSalmonella enterica subsp. enterica serovar Typhimurium strain SAP17-7299 とSalmonella enterica subsp. enterica serovar Typhimurium strain RM10961の配列ダウンロードします。
Sequence ID: CP040566.1を選択。右上のSend to => Complete Record => File => GenBank(ジェンバンクと読む、fullの方を選ぶ)=> Create fileでダウンロード開始します。
3つファイルが準備できました。
3、genome比較
ここではpregressiveMauve(ref.2)を使います。
右端のボタンでリスト表示に切り替え、目的のファイルを探します。
登録したらOutputファイルのパスを記載して実行します。
数分で結果が表示されました。(*2)。上のメニューから拡大、縮小、移動などができます。
GenBankを使っているので、遺伝子とアノテーション表示されます。
exportからSNV、indelをexportできます。
SNV出力。
補足
変異を持っている遺伝子が同定できたら、そのタンパク質配列を取り出し、KAASを使ってアノテーションをかけてみましょう。KAASはベストヒットに基づいてKEGG orthology (KO) identifierをアサインし、KEGG pathwayにリンクしてくれます。
https://www.genome.jp/kegg/kaas/
今回はここまでにします。Mauveを使うことで、塩基置換、スモールサイズのindelを検出することができました。
追記
比較する株が公開されているゲノム配列と比べて大きく違う場合、例えば塩基置換のコールが1千~10万出てしまう時は、上記の手順では難しくなります。その場合でも何とか比較の糸口を掴みたいとなると、タンパク質レベルで比較するやり方もあります。以前紹介したOrthovenn2を使えば、共通・非共通のタンパク質群を検出して、さらにGOエンリッチメント解析などを実行できます。参考にして下さい。
引用
Mauve: Multiple Alignment of Conserved Genomic Sequence With Rearrangements
Aaron C.E. Darling, Bob Mau, Frederick R. Blattner, Nicole T. Perna
Genome Res. 2004 Jul; 14(7): 1394–1403
progressiveMauve: multiple genome alignment with gene gain, loss and rearrangement
Darling AE1, Mau B, Perna NT
PLoS One. 2010 Jun 25;5(6):e11147
KAAS: an automatic genome annotation and pathway reconstruction server
Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M
Nucleic Acids Res. 2007 Jul
関連
*1
手頃なサイズのものを適当に選んでいます。
*2
ラン中にエラーが出たら、アノテーションファイルが対応していない可能性があります。GenBankではなくゲノム配列を使うか、NCBIからゲノム配列をダウンロードして、DFASTで再アノテーションすることで解決することがあります。