macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ゲノムアノテーション

ShortStackでsmall RNAをアノテートする

ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。 テスト…

メタゲノム向けの全ORF検出ツール OrfM

OrfMはcontigやアセンブルされていないリードからstopコドンの有無に関わらずorfを探索するツール。データサイズが莫大になるメタゲノム向けに設計された。非常に高速に動作し、translateやembossパッケージのgetorf、prodigalなどより数倍速く動作するとさ…

バクテリアやアーキアの遺伝子を予測するProdigal

ProdigalはDynamic Programmingの方法論により効率的にバクテリアやアーキアの遺伝子を探すツール。既存の方法は様々存在するが、本手法はまずインプットゲノムを分析してモデルを構築し、それから遺伝子を予測することで、false positiveを抑えtrue callを…

ARAGORNでtRNAやtmRNAを探す。

ARAGORNは既存のtRNAとのホモロジーや二次構造などを手掛かりにゲノム中からtRNAやtmRNAを探すツール。 webサーバー ARAGORN, tRNA (and tmRNA) detection インストール brewで導入できる。 brew install ARAGORN ラン ARAGORN genome.fa > output ポジショ…

OrthoFinderでオルソロググループを探索する

リファレンスのタンパク質情報を元に、オーソロガスなタンパク質を見つけたり、その系統樹を描いてくれるツール。 de novo transcriptome解析のアノテーション時にも用いられている。 公式のGithubにとても丁寧な説明があるので、そちらをご覧ください。 Ort…

de novo transcriptome向けのアノテーションツール; Trinotate  <準備編>

de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表された(論文はまだ)。Trinotateは非モデル生物のデータにも対応したde novo transcriptome向けアノテーションツールである。解析・付与でき…

TMHMMで膜貫通領域を予測する

TMHMMは膜貫通領域を予測するツール。膜タンパク質であるかどうかの判定にも用いられる。 webサーバー版 http://www.cbs.dtu.dk/services/TMHMM/ マニュアル 解凍したディレクトリにユーザーガイド(TMHMM2.0.html)あり。 TMHMM2.0 インストール 依存 perl …

HMMERでタンパク質ドメインを検索する

HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.uk/Tools/hmmer/ マニュアル …

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

signalPでシグナルペプチド切断部位を予測する

SignalPは、タンパク質のシグナル配列の切断部位を予測するツール。商用の解析ソフトCLCにも導入されている。 web server版とローカル版がある。 signalIP4.1 webサーバー http://www.cbs.dtu.dk/services/SignalP/ web server版は統合TVを参考にしてくださ…

eukaryotesのアノテーションツール; Augustus

Augustusはblast2goでも使われているeukaryotesのアノテーションツール。既存の他の手法と比較しても精度が高い手法と述べられている(検証リンク)。高速なwebサーバー版と、RNA-seqのbamファイルを指定してexon-intron情報を与え、予測精度を上げるlocal版…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

バクテリア、ウィルス、アーキアのアノテーションツール; Prokka

Prokkaは、バクテリア、アーキア、ウィルスのアノテーションツール。はじめにblast+でcore geneを特定し、それからHMMER3を使ってより精度の高い分析が行われる。 インストールはbrewで簡単にできる。公式サイトに従い、まずperlのモジュールをインストール…