macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノム比較ビューア Artemis comparison tool (ACT)

2019 2/13 condaインストール追記

2020 2/25 コメント追加、3/9 インストール方法変更、5/1 使用例追記

2021 1/8 インストール方法変更(blastを追加)、5/23 インストール手順の誤字修正

2023/10/24 biopythonのインストール方法変更

 

 

 Artemis comparison tool (ACT)は2つ以上のゲノムを比較して、塩基配列同一性の高い領域を描画するツール。解析には、比較する生物種ごとのfastaファイルと、遺伝子のアノテーションgenbankフォーマットなどのファイルが必要(遺伝子は任意)。ACTは予めblast検索を行っておき、それからjavaのプログラムを立ち上げる。そのため、ACTを起動する前に、blastサーバーにアクセスして総当たりblastするか、ローカルblastコマンドで総当たりのblast検索を行う必要がある(具体的にはローカルブラストを -outfmt 6をつけて実行し、タブ形式の結果ファイルを出力する)。

 下記に、blastサーバーを利用したやり方とローカルblastを行う方法をまとめる。 

 

Document

 

インストール

#bioconda
conda install artemis -c bioconda




#2020 3/9 condaでpython2の環境を作ってbwast.pyを動かせるようにしておくと楽にゲノム比較できます。
mamba create -n artemis -y python=2.7
conda activate artemis
mamba install -c bioconda blast -y
mamba install -c bioconda artemis -y
mamba install -c anaconda biopython -y

#bwastの導入
git clone https://github.com/bawee/bwast.git

#genbank
python bwast/bwast.py genome1.gbk genome2.gbk genome3.gbk -a
#fasta
python bwast/bwast.py genome1.fa genome2.fa genome3.fa -a


 

 手順 

1-B、blastサーバーを使ったblast解析を行う場合(bwastを使うなら不要)

ACTの解析専用に、クラウドでブラスト解析を行ってくれるサーバーが下記URLである。

http://www.hpa-bioinfotools.org.uk/pise/double_actv2.html

f:id:kazumaxneo:20170614163819j:plain

top画面

2020 2/25追記

既にサーバーは停止しているようです。ローカルマシンでblastn検索を行ってください。

 

2つある大きなウィンドウに比較するゲノムのfasta形式のファイルを2つ入れる。テストなら、OR select buttonを押して生物種を選ぶ。下の方のblastnかblastpを選び、メールアドレスを記入してRun_genome_blastボタンを押せば解析が始まる。blastは精度より速度重視の手法のため、プラスミドのような小さいゲノムだと瞬時に終わり下の画面になる。

 

f:id:kazumaxneo:20170324171719j:plain

ブラスト終了後の画面

 

上のgenome_blast.result を右クリックして "リンク先のファイルをダウンロード"でダウンロードする。中身はこのようなファイル。

user$ head -4 genome_blast.result.txt 

39750 99.00 3214 24043 M0_2_50000_blastdb_WT_pilon.fasta.00000001.out 3214 24042 1 dna:chromosome chromosome:ASM83294v1:1:1:4109373:1 REF

20400 99.00 39426 50000 M0_2_50000_blastdb_WT_pilon.fasta.00000001.out 39408 49980 1 dna:chromosome chromosome:ASM83294v1:1:1:4109373:1 REF

1219 97.00 31977 32642 M0_2_50000_blastdb_WT_pilon.fasta.00000001.out 31976 32641 1 dna:chromosome chromosome:ASM83294v1:1:1:4109373:1 REF

1154 100.00 36841 37422 M0_2_50000_blastdb_WT_pilon.fasta.00000001.out 36840 37421 1 dna:chromosome chromosome:ASM83294v1:1:1:4109373:1 REF

 

 

1-B、local blastを行う場合(blastn)

makeblastdb -in reference.fa -out blastDB -dbtype nucl #データベース作成
blastn -db blastDB -query input.fasta -out blast_result.txt -outfmt 6

 比較元をデータベースにし、その比較対象をクエリにしてblast解析を行う。この出力をACTのcomparison fileに指定する。

 

 

次にACTのダウンロードを行う。 

 

2、ACTのインストール と起動

http://www.sanger.ac.uk/science/tools/artemis-comparison-tool-actにアクセスする。

f:id:kazumaxneo:20170614164345j:plain

 

上の画面中央付近の"Mac OS"をクリックしてダウンロードする。自己解凍されてできた4つのアプリをApplications/にコピーする。これでインストールは完了。

 

 

ただし最新のmac OSだと起動できない。起動できない人は、上のリンクから、java web start版をダウンロードする。 ダウンロードしたアイコンを叩くと起動するが、mac OS sierraではApp store以外から落としたファイルを起動できない。 怒られたら、リンゴマークから環境設定を起動し、セキュリティとプライバシの項目のこのまま開くをクリック、を選択する。   

 

f:id:kazumaxneo:20170324171808j:plain

 

パスを入れて起動する。それでも怒られる場合、jabaのセキュリティに例外URLを登録する必要がある。リンゴマーク -> 環境設定 -> javaを選択。

f:id:kazumaxneo:20170324171838j:plain

 

java-> セキュリティタブをクリック。サイトリストの編集をクリック

f:id:kazumaxneo:20170324172442j:plain

http://www.genedb.org を追加して保存。もう一度ダウンロードしたファイルを叩くと、また文句を言われるが起動できるようになる。

 

3、gbkファイルの読み込み

起動したら、File -> Open ...を選択。

f:id:kazumaxneo:20170324171924j:plain

 

下のウィンドウが出てくるので、ブラスト解析に使ったデータのgenbankファイル2つを選ぶ。comparison fileにはブラスト解析でダウンロードしたテキストファイルを選択。

f:id:kazumaxneo:20170324172020j:plain

ゲノムが似たもの同士を比較すると、初期条件ではこのように蜘蛛の巣を張ったような感じになる。

f:id:kazumaxneo:20170324172043j:plain

 

 

閾値を上げて完全マッチだけ取り出す。画面で右クリックしてSet Score Cutoffを選択

f:id:kazumaxneo:20170324172107j:plain

 

Minimum cutoffゲージを少し上げる。

f:id:kazumaxneo:20170324172135j:plain

 

すると下のように変化する。上のウィンドウを閉じると元に戻る。 

f:id:kazumaxneo:20170324172203j:plain

 

比較には、ゲノムの中央で大きなインバーション(逆位)が起きている2ゲノムを使っている。上の図を見るとそれが一目瞭然である。

 

 

 

次のデータは、ほぼ同じゲノム構造を持っているが、ざっくり1kbpに1つくらい塩基置換やindelが起きている生物種同士の比較(E.coliのK12とO157のような同じ種間の生物)。

 

f:id:kazumaxneo:20170324172231j:plain

端からみていくと、例えば下の領域には片方の生物しかない遺伝子が見つかる。

f:id:kazumaxneo:20170324172252j:plain

 

 

 

 次は生物としてはあまり近縁でないが、特殊な代謝系遺伝子セットをどちらの生物も持っている例。同調して機能する特定の遺伝子セット自体はまとまって存在しているが、下の図を見るとその部分だけ線が描かれ相同性が高くなっていることが分かる。

f:id:kazumaxneo:20170324172313j:plain

 

 もっと例を見たけば、Slide shareのリンクの108-109スライド目あたりが参考になる。 http://www.slideshare.net/leightonp/plant-pathogen-genome-data-my-life-in-sequences

 

 

 

実はACTはサポートするラッパーツールと組み合わせることで劇的に使いやすくなる。下のエントリーでそのことを紹介しています。ラッパーツールを入れて、blastからACTの比較までをほぼ自動化するやり方を紹介してますので、興味があればご覧ください。


 

2020 5/1追記

artemisはリピート配列がゲノム上にどのくらい広がっているか視覚化するにも役立つ。その場合は自身のゲノムと比較する。上のラッパーツールを使うなら

conda activate artemis
python bwast/bwast.py genome.fasta genome.fasta -a

 起動後、セルフマッチを非表示にする。

f:id:kazumaxneo:20200501120502p:plain

 

repetitive region由来と思われるマッチが見えるようになった。

f:id:kazumaxneo:20200501120504p:plain


 

 

 

 

備考: http://www.webact.org/WebACT/generateというACTの解析を自動化するサービスもあるが、こちらはうまくワークしないので検証できなかった。開設から時間が経っているのでもしかするとサーバーがゾンビ化してるのかもしれない。

 

 

参考 ---------------------------------------------------------------------------------------------------------------------------

1、Artemis-ACT instructions for NOVA cours  

http://www.pseudomonas-syringae.org/Artemis-ACT-NOVA.html  

 

2、ACT User manual ftp://ftp.sanger.ac.uk/pub/project/pathogens/workshops/BioLinux_Artemis_Data/Artemis-BioLinux.pdf    

 

 

引用

ACT: the Artemis Comparison Tool.
Carver TJ, Rutherford KM, Berriman M, Rajandream MA, Barrell BG, Parkhill J

Bioinformatics. 2005 Aug 15;21(16):3422-3. Epub 2005 Jun 23.

 

追記

関連