macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

CGView Comparison Toolによるバクテリアのゲノム比較6 -次世代リードのアライメント

次はCCTを使って次世代データをリファレンスに当てて、リードの張り付きをビジュアル化するチュートリアルを見ていく(公式ページチュートリアル6)

 

 

CCTのインストールは以下で説明しています。

 今までと流れが微妙に異なっているので注意する。

 

francisellaプロジェクトをビルドする。

cgview_comparison_tool.pl -p francisella

francisellaディレクトリができる。

 

Francisella tularensis (野兎病菌) のゲノムをダウンロードする。

fetch_genome_by_accession.sh -a NC_006570 -o francisella/reference_genome

NC_006570.gbkがダウンロードされる。

 

454シーケンサーのファイルをダウンロードする。#ペアリードの1

wget http://stothard.afns.ualberta.ca/cgview_server/examples/example_2/files/454_reads_1.fast -O francisella/comparison_genomes/454_reads_1.fna 

#ペアリードの2

wget http://stothard.afns.ualberta.ca/cgview_server/examples/example_2/files/454_reads_2.fasta -O francisella/comparison_genomes/454_reads_2.fna 

中身を見てみる。

>head -3 francisella/comparison_genomes/454_reads_1.fna
>read_1
taaatttttgattttttttactttttatatgcttgatatatctcatataatccttgcgcc
tcaagtattgatatattaatatcaggatctacttcagca

NGSに対応しているが、リードはfastaフォーマットになってないとダメらしい(リードのフォーマットについては一番下に書いています)。

 

解析するにはコンフィグファイル(francisella/project_settings.conf)の設定を修正する必要がある。

query_source = none

のnoneをnucleotideに修正。

 

database_source = none

のnoneをdnaに修正。

 

できたらランする。

cgview_comparison_tool.pl -p francisella -t --cct

 --cct: つけるとリードのアライメント相同性により色が変わる。

-t; リードを整頓して相同性が一番高いリードを一番外側に並べ換える。

 

mapのmedium.pngを開く。

f:id:kazumaxneo:20170614112124j:plain

凡例を拡大表示。

f:id:kazumaxneo:20170614134504j:plain

 

描画結果の赤い部分は454のリードが高密度にアライメントされた領域である。ただし稀に白くなっている領域がある。左下の白の部分を25倍拡大してみる。その場合は、チュートリアル2で出てきたcreate_zoomed_maps.sh コマンドを使う。

 

create_zoomed_maps.sh -p francisella -c 1080000 -z 25

 -z: ズーム倍率の指定

f:id:kazumaxneo:20170614134122j:plain

orfの注釈が小さければxmlを編集して拡大する(チュートリアル4)。 

 

 

 

チュートリアル7へ

 

 

 

#参考

比較するNGSのデータは、fasta形式になっていないといけない。またfastaの名前に特殊文字が入っているとblast実行時にエラーになってしまう。すなわち

>1
CCCTATGCCGCCAGCAAACGCATGGTGGAACAAATTTTGGCTGACTTTGACCAAGCTTACGTCTTCCAATCAGTTATTTTTCGCTACTTTAATGCTTCCGGCGCACACCCCCAAGGACTCTTAGGAGAAGACCATAACCCCGAAACCCATCTAATTCCCCTTCCCCTGTTTACAGCTTTGAAACAACGTCCCCAACTTTCCTTTTTTGGTACTGATTATGACACCCTCGACGTCACCGCCTTACGGGATTACATCCATTTCTGTGCCCTCGCGATCGCCCATGTATTAGTCTTGCAATACC
>2
ACAGGGGACTGTTGAATCAGAATTTGATGGGTTTGCCAAAAACTGCGGTATTTGGGGCCGTAGCCCAAAAATTGCGTCGTTTGGGGCAGGGTTTTTCTGACCGCCTTTCTGTAGAGGCTTTCACGAATATATTTTCCTTCCCCGTCTATATAGCCCGGACCCTGATCCGCCACGGCCATCGCCACCGTTTTTCTTTCCTGTTCTTCCACATTTACCTTCGCCGGAAATAACTTTCTAGTTACTTCTACTCTCATTCTGGCCGGATTTTTTGCCAGTTCATCCCCCAAGGCCTGTGTAGCA

は比較できるが、

>M02077:18:000000000-A88N7:1:1101:20381:1495 1:N:0:1 
CCCTATGCCGCCAGCAAACGCATGGTGGAACAAATTTTGGCTGACTTTGACCAAGCTTACGTCTTCCAATCAGTTATTTTTCGCTACTTTAATGCTTCCGGCGCACACCCCCAAGGACTCTTAGGAGAAGACCATAACCCCGAAACCCATCTAATTCCCCTTCCCCTGTTTACAGCTTTGAAACAACGTCCCCAACTTTCCTTTTTTGGTACTGATTATGACACCCTCGACGTCACCGCCTTACGGGATTACATCCATTTCTGTGCCCTCGCGATCGCCCATGTATTAGTCTTGCAATACC
>M02077:18:000000000-A88N7:1:1101:12126:1509 1:N:0:1
ACAGGGGACTGTTGAATCAGAATTTGATGGGTTTGCCAAAAACTGCGGTATTTGGGGCCGTAGCCCAAAAATTGCGTCGTTTGGGGCAGGGTTTTTCTGACCGCCTTTCTGTAGAGGCTTTCACGAATATATTTTCCTTCCCCGTCTATATAGCCCGGACCCTGATCCGCCACGGCCATCGCCACCGTTTTTCTTTCCTGTTCTTCCACATTTACCTTCGCCGGAAATAACTTTCTAGTTACTTCTACTCTCATTCTGGCCGGATTTTTTGCCAGTTCATCCCCCAAGGCCTGTGTAGCA

は比較できない。fastqを比較したいなら、スクリプトを書いて、fastqの1、2行目だけ残し、>の名前も特殊文字を含まないものに変える必要がある。また、拡張子は.faは受け付けず、.fnaにする必要がある。一方、特に改行は必要ない。

>read_1

ATGC....

>read_2

GTGC....

このように、1行目ヘッダー、2行目長い配列でも受け付けてくれる(foldコマンドで折りたたむ必要は特にない)。

 

NGSのアライメントをblastで行うとやはり相当な時間がかかってしまう。NGSデータを使いたいなら、データをランダムサンプリングしてカバレッジを減らしておいた方が良い。

 

備考

ランダムサンプリングならこの方の記事が参考になると思います。

 

追記

seqkitも使えます。 


 

 

 

 

CGView Comparison Toolによるバクテリアのゲノム比較5 - ゲノム比較とモニタージュ合成

 

葉緑体ミトコンドリアの次は、CCTを使って複数ゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル5)

 

CCTのインストールは以下で説明しています。

 

全体比較は手順が異なる。まずbuild_blast_atlas_all_vs_all.shコマンドを使い、新しいプロジェクトをビルドする。ここではmontage_projectを作る。

build_blast_atlas_all_vs_all.sh -p montage_project

montage_projectディレクトリができる。

 

Bordetellaクロモソームをcomparison_genomes/にダウンロードする。

fetch_refseq_bacterial_genomes_by_name.sh -n "Bordetella*" --min 1000000 -o montage_project/comparison_genomes/

--min 1000000でゲノムサイズ1Mbp以下を除く。

321ファイルダウンロードされた。

 

全体比較には再びbuild_blast_atlas_all_vs_all.shを打つ。

build_blast_atlas_all_vs_all.sh -p montage_project

このランは非常に時間がかかる。

 

エラーになり、最後のモニタージュのデータが出力されるまでランできなかった。修正でき次第投稿します。このページは情報共有のため残しておきます。

 

 

 

チュートリアル6へ

 

 

 

CGView Comparison Toolによるゲノム比較4 - ミトコンドリアゲノムの比較

葉緑体ゲノムに続き、CCTを使ってミトコンドリアゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル4)

 

 

CCTのインストールは以下で説明しています。


前半は以前のクロモソームプラスミドと同じなので簡潔に説明する。

 

まずはドブネズミミトコンドリアゲノムをダウンロードする。

fetch_genome_by_accession.sh -a AC_000022 -o ./

上記のコマンドを打つと、カレントディレクトリにAC_000022がダウンロードされる。

 

blastの準備をする。以下のコマンドを打つ。

build_blast_atlas.sh -i AC_000022.gbk

終わるとAC_000022ディレクトリができる。

 

他のミトコンドリアゲノムをダウンロードする。

fetch_all_refseq_mitochondrial_genomes.sh -o AC_000022/comparison_genomes/

740ファイルダウンロードされた。

 

デフォルト条件でゲノムを比較するなら以下のように打つ。

build_blast_atlas.sh -p AC_000022

 

DNA vs DNA 

f:id:kazumaxneo:20170613210817j:plain

 top100が表示されている。

 

cDNA vs cDNA

f:id:kazumaxneo:20170613210850j:plain

  top100が表示されている。

 

しかしこのままだとorfの注釈が非常に小さい。

f:id:kazumaxneo:20170613215711j:plain

小さすぎる!。 

 

そこで公式チュートリアルには、見栄えを良くするためxmlファイルのパラメータを変更する方法を挙げている。それには、cDNAのフォルダかDNAのフォルダを開き、xmlを編集する方法がある。例えば、cDNAのフィルダ(AC_000022/maps_for_dna_vs_dna/cgview_xml/)にはx-largeとlarge、mediumそれぞれの図のxmlファイルがある。例えばx-largeの文字を変えるなら、下のサイズに変えると随分大きくなる。

x-largeのxmlファイルをMiなどのテキストエディタで開き、下の4つを検索する。

labelFont="SansSerif, plain, 15"

のサイズを15から200に変更。

 

rulerFont="SansSerif, plain, 60"

のサイズを60から100に変更。

 

tickLength="20"

を20から40に変更。

 

tickDensity="0.0416666666666667"

を0.0416666666666667から0.08んい変更。

このサイズはx-largeでは程よいが、largeやmediumでは大きくなりすぎてしまう(largeなら上の数値の半分以下、mediumで1/4以下)。

AC_000022のルート直下に戻りランを再実行する。ただし前のコマンドを打つとxmlが上書きされてしまう。改変したxmlを使って実行するなら以下のように打つ。

redraw_maps.sh -p AC_000022

 

修正後のDNA vs DNAのpngを開いてみる。

f:id:kazumaxneo:20170613212534j:plain

orfの注釈が見やすく大きくなっている。  

 

 

ベクターグラフィックスのsvg形式で出力してみる。

redraw_maps.sh -p AC_000022 --format svg

 DNA vs DNA

f:id:kazumaxneo:20170614122035j:plain

 

ベクターグラフィックなので、いくら拡大してもドット化しない。

f:id:kazumaxneo:20170614122019j:plain

svg形式はadobe系のソフトと必ずしも互換性があるわけではないが、CCTで出力したsvgファイルはイラストレーターで開くことができることを確認した。

 

 

今回は公式チュートリアルに習いxmlファイルをいじったが、--customでフォントサイズを変えても同じことはできる。文字を今回の修正版のように大きくするならは以下のようなコマンドになる。

build_blast_atlas.sh -p AC_000022 --custom 'labelFontSize=100 backboneRadius=3000'

出力

f:id:kazumaxneo:20170614145944j:plain

 

 

 

チュートリアル5へ


 

CGView Comparison Toolによるゲノム比較3 - 葉緑体ゲノムの比較

 

プラスミド、クロモソームに続き、CCTを使って葉緑体ゲノムを比較するチュートリアルを見ていく(公式ページチュートリアル3)

 

CCTのインストールは以下で説明しています。


前半は以前のクロモソームプラスミドと同じなので簡潔に説明する。

 まずはPorphyra purpureaのクロロプラストゲノムをダウンロードする。

fetch_genome_by_accession.sh -a NC_000925 -o ./

上記のコマンドを打つと、カレントディレクトリにNC_000925.gbkがダウンロードされる。 

プロジェクトをビルドする。

build_blast_atlas.sh -i NC_000925.gbk

終わるとNC_000925ディレクトリができる。

 

他のクロロプラストゲノムをダウンロードする。

fetch_all_refseq_chloroplast_genomes.sh -o NC_000925/comparison_genomes/

157ファイルダウンロードされた。

 

デフォルト条件でゲノムを比較するなら以下のように打つ。

build_blast_atlas.sh -p NC_000925 --map_size x-large --custom 'labelFontSize=100 backboneRadius=3000'

 --custtomで文字が潰れないよう工夫している。

  • labelFontSizeはfeature tableの文字サイズ
  • backboneRadiusは背景の円のサイズ。

--map_size x-large: x-largeのファイルのみ出力。

 

 

DNA vs DNA

f:id:kazumaxneo:20170613213347j:plain

  

cDNA vs cDNA

f:id:kazumaxneo:20170613213211j:plain

 

  

チュートリアル4へ

 

 

 

 

 

 

 

 

CGView Comparison Toolによるバクテリアのゲノム比較2 - クロモソームの比較

 

インストールは以下で説明しています。

 

 

プラスミドに続き、E.coliのゲノムを他のE.coliゲノムと比較してみる(公式ページのチュートリアル2)。

 

ゲノムをダウンロード。

fetch_genome_by_accession.sh -a CP001855 -o ./

CP001855.gbkがダウンロードされる。CP001855というgenbankのアクセッション番号で指定している。アクセッション番号はgenbankファイルのtop付近にある。

f:id:kazumaxneo:20170613203039j:plain

NCBIのNucleotideデータベース。青で強調しているのがアクセッション番号。

 

プロジェクトをビルドする。

build_blast_atlas.sh -i CP001855.gbk

CP001855ディレクトリができ、その中に複数のサブディレクトとファイルができる。

 

他のE.coliゲノムをダウンロードする。

fetch_refseq_bacterial_genomes_by_name.sh -n "Escherichia*" --min 1000000 -o CP001855/comparison_genomes/

--min: ゲノムサイズ1Mbp以下は除く。(E.coliのプラスミドを排除するため)

343ファイルダウンロードされた。

 

デフォルト条件でゲノムを比較するなら以下のように打つ。

build_blast_atlas.sh -p CP001855

ゲノムになると、解析にかなりの時間がかかる。焦らず待つ。

 

一晩放置していると終わった。以下のフォルダができる。

CP001855/maps_for_dna_vs_dna

CP001855/maps_for_cds_vs_cds

 

 maps_for_dna_vs_dna/DNA vs DNAのpngを開いてみる。 

f:id:kazumaxneo:20170614110527j:plain

 

 

一部の領域を拡大して見るなら、create_zoomed_maps.shを使う。

create_zoomed_maps.sh -p CP001855 -c 4450000 -z 15

-z: ズームサイズ。

-c: 大まかな領域の指定。

 

 maps_for_dna_vs_dna/DNA vs DNAのpngを開いてみる。 

f:id:kazumaxneo:20170614111134j:plain

中央の領域が他のE.coliゲノムにはないことがわかる。

 

さらにズームしてみる。

create_zoomed_maps.sh -p CP001855 -c 4450000 -z 60

DNA vs DNAのpngを開くと

f:id:kazumaxneo:20170614111531j:plain

 

このようになった。全体マップを描いて興味がある領域が出てくれば、create_zoomed_maps.shコマンドを使うことで欲しい領域だけ取ってくることができる。

 create_zoomed_maps.shコマンドは--customオプションが存在しないので、フォントサイズをいじる場合はxmlファイルを直接編集する(xmlを編集する例はチュートリアル4参照)か、ゲノム全体を描画する時に前もって

--custom 'labelFontSize=100'

をつけてランする。"20"だとゲノム全体を描画すると見えないが、特定の領域だけ拡大するzoomコマンドを走らせると、x-large、large、mediumの3出力のうちmediumの出力でちょうど良いフォントサイズになる。例えば下の図は、20のフォントサイズで全体を描画してから、create_zoomed_maps.shでx15拡大して再計算しmediumの図を開いたものになる。

f:id:kazumaxneo:20170627123239j:plain

ちょうど良いフォントサイズ。

 

x-largeだとこのようにフォントは見えない。

f:id:kazumaxneo:20170627123344j:plainつまりx-large出力を使うなら、20の数倍の値にしておく必要がある。

 

チュートリアル3へ

 

CGView Comparison Toolによるバクテリアのゲノム比較1 - プラスミド

インストールは以下で説明しています。

 

チュートリアル1なので、やや丁寧に説明していく。

 

インストールが終わったら、CCTのチュートリアルにある図の描画を実践していく。初めての人は下のコマンドを順にコピペしていけばよい。

 

初回はE.coliのプラスミドE24377A plasmid pETEC_35 (35kbp)と他のE.coliのプラスミドとの比較を行う。

 まずpETEC_35の配列をダウンロードする。

fetch_genome_by_accession.sh -a NC_009787 -o ./

上記のコマンドを打つと、カレントディレクトリにNC_009787.gbkがダウンロードされる。

fetch_genome_by_accession.shコマンドだが、このシェルスクリプトは内部でNCBIのbacteraiのFTPサイト(ftp://ftp.ncbi.nih.gov/genomes/archive/old_refseq/Bacteria/)に繋げ、wgetで配列ダウンロードしているy。

 

 

プロジェクトをビルドする。ダウンロードしたgbkを指定して以下のコマンドを打つ。

build_blast_atlas.sh -i NC_009787.gbk

-iで最初にダウンロードしたファイルを指定する。終わるとNC_009787ディレクトリができ、その中にいくつかののサブディレクトリとファイルができる。

 

比較するE.coliの配列をダウンロードする。ビルドしたプロジェクトのサブディレクトリcomparison_genomes/を指定して以下のコマンドを打つ。

fetch_refseq_bacterial_genomes_by_name.sh -n "Escherichia*" --max 1000000 \ -o NC_009787/comparison_genomes/

--max: これより長いゲノムは外される。<1Mbとすることでクロモソームをダウンロードするのを防止。

-n; バクテリアのフルネーム、または部分名。検索に使われる。"*"でワイルドカード検索している。

上記のコマンドを打つと、NC_009787/comparison_genomes/中に他のE.coliのgenbank配列がダウンロードされる。2017年6月に試したところ586ゲノムダウンロードされた。このコマンドもfetch_genome_by_accession.shと同じく内部でNCBIのbacteraiのFTPサイトの検索をかけている。(備考 このコマンドはgbkファイルをダウンロードするのに"使える")。

 

ダウンロードには数時間かかった。  

ゲノム比較を行うには以下のコマンドを打つ。

build_blast_atlas.sh -p NC_009787

 -pでプロジェクトディレクトを指定する。このコマンドを打つと、リファレンスゲノムNC_009787.gbkをcomparison_genomes/中の全gbkファイルに対してblast検索し、結果を画像ファイル出力する。当然時間はそれなりにかかる。

 

終わると、NC_009787/に2つのサブディレクトリができる。

NC_009787/maps_for_dna_vs_dna

NC_009787/maps_for_cds_vs_cds

2のディレクトリにはそれぞれ6つのファイルが入っているが、画像の解像度が違うだけで内容は同じである。

DNA vs DNAのpngを開いてみる。

f:id:kazumaxneo:20170613144505j:plain

比較対象はは587のプラスミドデータあるが、相同性top100のプラスミドのみが描画される(100以上描画する例はチュートリアル7を参照)。左下の凡例の比較ゲノム名は絵の外周から内側と同じ順に上から並んでいる。

右上の凡例を拡大。

f:id:kazumaxneo:20170613181201j:plain

 

 

cDNA vs cDNAのpngを開いてみる。

f:id:kazumaxneo:20170613144328j:plain

cDNAもDNAと同じでtop100がビジュアル表示されている。 

 

大量のデータを使っているので、色が同じだと凡例があってもどれがどのブロックが分かりづらい。そこで公式チュートリアルでは、コマンド実行時にmapをカスタマイズする--customオプションをつけ、定規オプション  (blast_divider_ruler) を設定する方法を提案している。blast_divider_rulerオプションを付けると、10リングごとに仕分け線が描かれ、同時に左下の凡例それぞれに上から通し番号が付く。

--customをつけて実行。

build_blast_atlas.sh -p NC_009787 -x --custom "blast_divider_ruler=T blastRulerColor=rgb(50,205,50)"

 -xは再解析時にデータを再利用するオプション。解析時間を短縮できる。

--custom " "でビジュアルを変える様々なオプションが利用できる。ここではblast_divider_rulerblastRulerColorを""の中につけて両者をスペース区切りにしている。customで指定できるオプションの詳細は公式HP

blast_divider_ruler=T #Tはtrue。つけないならF (false)。

blastRulerColor=rgb(50,205,50) #仕切り線の色。RGBの50,205,50は薄い緑色。

 

上記コマンドを実行すると データは上書きされる。

DNA vs DNA

f:id:kazumaxneo:20170613182506j:plain

小さくて見にくいが、10リングごとに黄緑の線が付き、左下凡例にも通し番号が付いている。

 

今度はE.coliのクロモソームゲノムを比較してみる。

 


 

CGView Comparison Toolによるバクテリアのゲノム比較 インストール編

2020 6/18  インストール追記

 

CGView Comparison ToolはStothardの研究グループが公開しているバクテリアやプラスミドのゲノム比較ツール(以下CCT)である。複数ゲノムを比較して描画する機能を持つ。以下のような美しい図が簡単なコマンド指定だけで描ける。

f:id:kazumaxneo:20170613140250j:plain

 

比較ゲノム結果をビジュアル化するツールは多いが、CCTは、同時に数千のゲノムを比較できる特徴を持つ。比較も、DNA vs DNAやcDNA vs cDNA、protein vs protein、またNGSデータのアライメント、などに対応している(論文リンクこれらの機能は他のビジュアル比較ツールにないCCTのユニークな特徴となる。バクテリアのゲノム比較に有用なツールと思われるので、インストールからテストランまでを紹介していく。

CCTの公式HP

http://stothard.afns.ualberta.ca/downloads/CCT/installation.html

 

CCTはコマンドラインで動かすローカル版の他に、同じオーサーたちが以前報告したwebサーバー版1つ前の論文)もある。ただwebサーバー版は比較するゲノムが3つまでに制限されており、基本的にローカル版をお勧めする。ローカル版はlinuxmacのインストールに公式対応しており、インストールもunixの知識が多少あれば難しくない。以下、macでローカル版をインストールして、チュートリアルのランを行うまでを説明する。

  

インストール

2020 6/18  追記

1、Bioconda (サポートスクリプトは導入されない)

Cgview :: Anaconda Cloud

conda create -n cgview -y
conda activate cgview
conda install -c bioconda cgview

 

2、condaを使用しない場合(旧解説)

はじめにCCTを公式ページのリンクからダウンロードしておく。 

本体の他に動作に必要なものは公式HPに記載されている。

 

 imagemagickは様々なフォーマットの画像の処理を行うソフトウエアで、brewでインストールできる。

brew install imagemagick
brew install wget #wgetがない人だけ 

CPANからperlモジュールをインストールする。

sudo perl -MCPAN -e shell

パスワードを入力してCPANシェルに入る。(>に変わる)

o conf prerequisites_policy follow #依存モジュールをインストール
o conf commit #設定をコミット

4つのモジュールをインストール。

install Error 
install LWP::UserAgent
install LWP::Protocol::https
install Tie::IxHash
exit #CPANを出る。

 

ホームにある.bash_profileに

export CCT_HOME="/path/to/cgview_comparison_tool"
export PATH="$PATH":"${CCT_HOME}/scripts":/path/to/blast-2.2.25/bin
export PERL5LIB="${CCT_HOME}"/lib/bioperl-1.2.3:"${CCT_HOME}"/lib/perl_modules:"$PERL5LIB"

を記載。これでCCTのツールへのパスが通る。

上記の/path/to/cgview_comparison_toolは自分のCCTのダウンロードパスに変更(パス中には日本語を含まない方が良い)。 /path/to/blast-2.2.25/binもインストールしたlegacy blast (blastall)のbinのパスに変更。

ソースしてパスを通す。

source ~/.bash_profile

cgview -h

$ cgview -h

illegal value '' for option -h/--htmlFile

usage: java -jar cgview.jar [OPTION]...

-A <integer> Specifies a label font size.

-c <integer> Specifies the base to center on when zooming.

-D <integer> Specifies a legend font size.

-d <real> Specifies tick density, between 0 and 1.0. Default is 1.0.

-E <boolean> Whether or not to embed vector-based text in SVG output.

-e <boolean> Whether or not to exclude SVG output from image series.

-f <format> The format of the output: PNG, JPG, SVG, or SVGZ.

-h <file> HTML file to create.

-H <integer> The height of the map.

-i <file> The input file to parse.

-I <boolean> Whether or not to draw labels on the inside of the backbone circle.

-L <integer> The width of an external legend.

-o <file> The image file to create.

-p <path> The path to the image file in the HTML file created using the -h option.

-r <boolean> Whether or not to remove legends.

-R <boolean> Whether or not to remove labels.

-s <directory> Directory to receive an image series.

-S <boolean> Whether or not to reference external stylesheet in HTML output.

-u <boolean> Whether or not to reference overlib.js in HTML output.

-U <integer> Specifies a sequence ruler font size.

-W <integer> The width of the map.

-x <string> Comma separated zoom values for image series.

-z <real> The factor to zoom in by.

Example usage: java -jar cgview.jar -f png -i cybercell.xml -o my_picture.png -h view_image.html.

Example usage: java -jar cgview.jar -i cybercell.xml -s directory_for_series -e true.

 

 

 

テストラン

CCTのディレクトリ内に移動して、以下のテストコマンドを実行。

cd /path/to/cgview_comparison_tool 
./update_cogs.sh
./test.sh

formatdbが見つからないと言う理由でエラーになるなら、legacy blastがmacに入っていない可能性がある。というのも、このツールは内部でblastallプログラムを動かしているが、これは現在NCBIが提供しているblast+とは異なるためで、古いblastツールが必要だからである。このlegacy blastをビルドしてパスを通しておかないと上記プログラムは動かない。

legacy blastはNCBのこちらからダウンロードできる(legacy blastが手に入らないという人はgmailのkazumaxpro@までご連絡ください)。

 

エラーが修復できたら改めてテストランを行う。

 update_cogs.shが正常に終わると最後に以下のようなメッセージが表示される。

.
Removed ‘.listing’.
Remote file no newer than local file ‘whog’ -- not retrieving.
Formatting myva for BLAST
Update complete.

同様にtest.shが正常に終わると、最後に以下のようなメッセージが表示される。

.
The map has been drawn.
Writing picture to ./sample_projects/test_orfs/maps/medium.png
Writing HTML to ./sample_projects/test_orfs/maps/medium.html
[Tuesday June 13 13:13:44 2017] [Notice] CGView maps have been created in ./sample_projects/test_orfs/maps.

testが終わるとsample_projectsができ、その中にたくさんのフォルダが出来ている。

/sample_projects/test_orfs/maps/にあるmedium.pngは以下のようなビットマップ画像である。

 

f:id:kazumaxneo:20170613132041j:plain

 

 

解析は以下の流れで進める。

1、比較元のリファレンスgbkの準備(チュートリアルではダウンロードしている)。

2、比較前のデータベース作成

3、比較するゲノムをデータベースフォルダの中のサブフォルダにダウンロード(検索は正規表現に対応)。

4、blastコマンドによる比較。

 

 

コマンドの使い方は公式ページのコマンドのページで確認してください。公式ページには丁寧なチュートリアルもあります。公式ページのチュートリアルを実行して見た結果も、別のエントリーでまとめています。

 

 チュートリアル1

チュートリアル2

チュートリアル3

 チュートリアル4

チュートリアル5

チュートリアル6

チュートリアル7

 実践編

 

 

引用------------------------------------------------------------------------------------------------

The CGView Server: a comparative genomics tool for circular genomes

Nucleic Acids Res. 2008 Jul 1; 36(Web Server issue): W181–W184.

The CGView Server: a comparative genomics tool for circular genomes

 

Comparing thousands of circular genomes using the CGView Comparison Tool

BMC Genomics 201213:202 

https://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-13-202

 

関連

こちらの方が簡単です

anvi'o