macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

blast結果をインタラクティブなヒートマップで視覚化する BLASTmap

 

 植物と病原体の相互作用の結果を決定する多数の遺伝子が現在発見されている。たとえば、免疫受容体、感受性因子、病原体エフェクター、およびそれらの宿主標的など。ターゲットエンリッチメントシーケンスは、遺伝子型固有のゲノムアセンブリを最初に生成する必要なく、これらの目的の遺伝子を優先的に再シーケンスする手段を提供する。 Basic Local Alignment Search Tool(BLAST)は、ここで開発されたBLASTmapと組み合わせて、ターゲット種または最も近い関連属をリファレンスとして使用することにより、そのような遺伝子を特異的にターゲットとするプローブを設計するために使用できる。

 BLASTアラインメントの視覚化のために多数のプログラムが利用可能である。ただし、現在、ビットスコアなどの大規模なBLAST出力属性を視覚的に比較する専用のプログラムはない。数千のBLAST結果を迅速かつ効率的に比較する必要性により、BLASTmapが開発された。これは、Blast結果をインタラクティブなヒートマップとしてクラスタリングおよび表示するためにカスタマイズされたShiny Rパッケージを使用して作成されたインタラクティブなWebアプリケーションである。論文では、カスタムDNA / RNAプローブシーケンスを分析し、4つのプローブでジャガイモR2耐病性遺伝子ファミリーの特定の包括的エンリッチメントに十分であることを視覚的に判断するため、BLASTmapが正常に適用された例を示す。  

 

推奨インターネットブラウザはChromeVivaldiOperaとされている。

 

使い方

1、BLAST実行

ローカルBLASTを行う。出力はタブ出力を指定する(Query name, hit name, percentage identity, alignment length, mismatches, gaps, query start, query end, hit start, hit end, e-value, bitscore、が記載されている事)。

#blastデータベース(protein)
makeblastdb -dbtype prot -in database_eq.fasta -out blastn_database
#blastデータベース(nucletoide)
makeblastdb -dbtype nucl -in database_eq.faa -out blastp_database

#blastp
blastp -db blastp_database -query query.faa -outfmt 6 -out out.txt -num_threads 8 -evalue 1e-5
#blastn
blastn -db blastn_database -query query.fasta -outfmt 6 -out out.txt -num_threads 8 -evalue 1e-5

#diamond blastx (紹介)
diamond blastx --query input.fa \
--db uniprot_ref_proteomes.diamond.dmnd \
--outfmt 6\
--sensitive \
--evalue 1e-5 \
> blast.out

 

2、BLASTmapへのアクセス

https://ics.hutton.ac.uk/blastmap/ にアクセスする。タブを切り替える方式になっている。

f:id:kazumaxneo:20200303004449p:plain

 

まずimportにアクセスしてデータを読み込む。ここではテストデータを使う。チェックボックスにチェックを入れる。

f:id:kazumaxneo:20200304111411p:plain

 

interactive heatmapのタブに切り替え、ヒートマップに描画する要素を選択する。

f:id:kazumaxneo:20200304110330p:plain

決めたら左上のPlot heat mapボタンをクリックする。

 

インタラクティブなヒートマップで視覚化された。

f:id:kazumaxneo:20200303223143p:plain

ヒートマップのmatrixはクエリシーケンス数 x ヒットした配列数で表現されている。クエリ配列数やヒット配列数が少なすぎると視覚化されないので注意する。

 

左のメニューから様々な条件でフィルタリングができる。

f:id:kazumaxneo:20200303223746p:plain

項目はかなり多く、スクロールしないと見えないので注意。

 

アラインメント長を2000-bp以上にした。

f:id:kazumaxneo:20200303223930p:plain

 

入力ファイルが巨大だと作図でエラーになる。その時は、ファイルを読み込んでそのままimnportのタブでフィルタリングする。

f:id:kazumaxneo:20200304110611p:plain

赤字の部分がエラーからOKに変わった。

 

描画された。

f:id:kazumaxneo:20200304110605p:plain

 

Exportから作図したマップは出力できる。

f:id:kazumaxneo:20200303223556p:plain

こちらのタブのヒートマップはインタラクティブではない。あくまで出力の最終確認に使う。

 

 

コメント

uniprotの配列をデータベースにするとそのままIDで出力されます。これではヒートマップでIDしか表示されず、視覚化する価値が半減してしまいます。blastデータベース作成時に ”--taxonmap <proteomes.taxids>” を 指定してtaxids付きでblastデータベースを作っておくと良いかと思います。手順については、以前紹介したblobtoolsのデータベース作成パートを確認してください。taxidを使わずデータベースを作ってしまったなら、UniprotのID変換webサービスを使って後からtaxonomyに変換することもできますが、やや面倒です。

引用
BLASTmap: A Shiny-Based Application to Visualize BLAST Results as Interactive Heat Maps and a Tool to Design Gene-Specific Baits for Bespoke Target Enrichment Sequencing.

Baker K, Stephen G, Strachan S, Armstrong M, Hein I

Methods Mol Biol. 2018;1848:199-206

 

関連