macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ゲノムアノテーション

OrthoFinderでオルソロググループを探索する

リファレンスのタンパク質情報を元に、オーソロガスなタンパク質を見つけたり、その系統樹を描いてくれるツール。 de novo transcriptome解析のアノテーション時にも用いられている。 公式のGithubにとても丁寧な説明があるので、そちらをご覧ください。 Ort…

de novo transcriptome向けのアノテーションツール; Trinotate  <準備編>

de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表された(論文はまだ)。Trinotateは非モデル生物のデータにも対応したde novo transcriptome向けアノテーションツールである。解析・付与でき…

TMHMMで膜貫通領域を予測する

TMHMMは膜貫通領域を予測するツール。膜タンパク質であるかどうかの判定にも用いられる。 webサーバー版 http://www.cbs.dtu.dk/services/TMHMM/ マニュアル 解凍したディレクトリにユーザーガイド(TMHMM2.0.html)あり。 TMHMM2.0 インストール 依存 perl …

HMMERでタンパク質ドメインを検索する

HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.uk/Tools/hmmer/ マニュアル …

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

signalPでシグナルペプチド切断部位を予測する

SignalPは、タンパク質のシグナル配列の切断部位を予測するツール。商用の解析ソフトCLCにも導入されている。 web server版とローカル版がある。 signalIP4.1 webサーバー http://www.cbs.dtu.dk/services/SignalP/ web server版は統合TVを参考にしてくださ…

eukaryotesのアノテーションツール; Augustus

Augustusはblast2goでも使われているeukaryotesのアノテーションツール。既存の他の手法と比較しても精度が高い手法と述べられている(検証リンク)。高速なwebサーバー版と、RNA-seqのbamファイルを指定してexon-intron情報を与え、予測精度を上げるlocal版…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

バクテリア、ウィルス、アーキアのアノテーションツール; Prokka

Prokkaは、バクテリア、アーキア、ウィルスのアノテーションツール。はじめにblast+でcore geneを特定し、それからHMMER3を使ってより精度の高い分析が行われる。 インストールはbrewで簡単にできる。公式サイトに従い、まずperlのモジュールをインストール…