macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

annotation

メタゲノムアセンブリ結果を可視化してマニュアルビニングを助ける gbtools

ほとんどの環境微生物が難培養性であることを考えると、microbial ecologyの分野では、metagenomicsは全コミュニティの機能を調べる手段に由来していた(論文より Handelsman、2004; Kunin et al、2008; Teeling and Glockner、2012)。研究者は、微生物群全…

メタゲノムのtaxonomyアノテーションを行い定量する MGmapper

迅速で効率的なDNAシーケンシング技術の進歩により、堆積物[論文より ref.1] [ref.2]、水[ref.3]、氷[ref.4]、ヒトなど様々な環境から微生物群集を研究することが可能になった[ ref.6]。既知のDNA配列決定プラットフォームの中で、イルミナHiSeqおよびMiSeq…

VCFのフィルタリングを行うGUIツール FMFilter

遺伝病研究における次世代技術の使用が普及している。 exomeおよび全ゲノムシーケンシングが利用可能になると、データの解析と解釈が必要になる。遺伝病の研究に使えるVarSifter [論文より ref.1]、GEMINI [ref.2]、GeneTalk [ref.3]、CanvasDB [ref.4]、Exo…

NGSデータから素早くバクテリアの分析を行う MICRA

ハイスループットシーケンシング(HTS)技術は多くの微生物学的問題に対処するための費用対効果の高い便利なアプローチとして浮上し、この分野を大きく変えている。完全なゲノム情報にアクセスすることは、微生物学における基礎研究に革命をもたらし、例えば…

ヒトゲノムの変異データマイニングプラットフォーム DaMold

次世代シークエンシング(NGS)は、日常的な遺伝子検査のための強力かつ効率的で費用効果の高い臨床ツールとなっている。それは、遺伝子的に多くの遺伝病を解読することによって有用性が証明されており、これが最も顕著なのは癌である(Ardeshirdavani et al…

オルガネラゲノムのアノテーションを行う GeSeq

次世代シークエンシング(NGS)技術は、オルガネラゲノム配列のavailabilityを爆発的に増加させた(論文より ref.1)。しかし、シーケンスアノテーションは依然として大きなボトルネックになっている。オルガネラゲノムの(半)自動注釈のための4つのツール…

オルガネラゲノムを描画する OrganellarGenomeDRAW

ミトコンドリアおよび色素体(葉緑体)は、それぞれαプロテオバクテリアおよびシアノバクテリアに由来する真核細胞の細胞内小器官である。ミトコンドリアおよびプラスチドは、二本鎖DNAのゲノムを保持しており、それらはオルガネラ内で複製および発現し、通…

バクテリアゲノムアノテーションツール間の注釈を自動比較する BEACON

ゲノムアノテーションは、ゲノム配列中の異なるセグメントの機能を同定して示すために使用され[ 論文より ref.1 ]、多くの下流ゲノム解析の基礎となっている。 真核生物[ref. 2 ]および原核生物[ref. 3 ]のためのいくつかのアノテーション手法(AM)が開発さ…

真核生物のRNAのコード領域を予測するGeneMarkS-T

GeneMarkS-T は教師なし学習でトレーニングされたRNAのタンパク質コード領域を予測ツール。原核生物向けのGeneMarkSを真核生物向けに拡張して作られた。データサイズに寄らず一定の検出率を示すため、データが莫大になるメタトランスクリプトーム解析のコー…

ShortStackでsmall RNAをアノテートする

ShortStackはsmall RNA seqのデータをリファレンスゲノムにアライメントし、small RNAのlociをアノテートするツール。改良が続けられており、2報目の論文では、高速化の他、複数のシーケンスデータの入力、bowtieによるアライメントなどに対応した。 テスト…

メタゲノム向けの全ORF検出ツール OrfM

OrfMはcontigやアセンブルされていないリードからstopコドンの有無に関わらずorfを探索するツール。データサイズが莫大になるメタゲノム向けに設計された。非常に高速に動作し、translateやembossパッケージのgetorf、prodigalなどより数倍速く動作するとさ…

バクテリアやアーキアの遺伝子を予測するProdigal

ProdigalはDynamic Programmingの方法論により効率的にバクテリアやアーキアの遺伝子を探すツール。既存の方法は様々存在するが、本手法はまずインプットゲノムを分析してモデルを構築し、それから遺伝子を予測することで、false positiveを抑えtrue callを…

ARAGORNでtRNAやtmRNAを探す。

ARAGORNは既存のtRNAとのホモロジーや二次構造などを手掛かりにゲノム中からtRNAやtmRNAを探すツール。 webサーバー ARAGORN, tRNA (and tmRNA) detection インストール brewで導入できる。 brew install ARAGORN ラン ARAGORN genome.fa > output ポジショ…

OrthoFinderでオルソロググループを探索する

リファレンスのタンパク質情報を元に、オーソロガスなタンパク質を見つけたり、その系統樹を描いてくれるツール。 de novo transcriptome解析のアノテーション時にも用いられている。 公式のGithubにとても丁寧な説明があるので、そちらをご覧ください。 Ort…

de novo transcriptome向けのアノテーションツール; Trinotate

de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表された(論文はまだ)。Trinotateは非モデル生物のデータにも対応したde novo transcriptome向けアノテーションツールである。解析・付与でき…

TMHMMで膜貫通領域を予測する

TMHMMは膜貫通領域を予測するツール。膜タンパク質であるかどうかの判定にも用いられる。 webサーバー版 http://www.cbs.dtu.dk/services/TMHMM/ マニュアル 解凍したディレクトリにユーザーガイド(TMHMM2.0.html)あり。 TMHMM2.0 インストール 依存 perl …

HMMERでタンパク質ドメインを検索する

HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.uk/Tools/hmmer/ マニュアル …

RNAMMERでrRNAを探す。

fastaからrRNA配列を探すツール。アノテーションに使えるのはもちろんだが、それだけでなく、de novo transcriptome解析などで、rRNAにマッピングされるリードを排除するため、rRNAをもれなく検索したい時などにも使えると思われる。 webサーバー版 http://w…

TransDecoderでタンパク質のコード領域を推定する

TransDecoderはアセンブリなどで作ったcDNA配列からコード領域を見つけるツール。 RNA seq実験でdo novo assemblyした配列や、cuflinksなどのgenome guide assemblyなツールで作った配列からコード領域を探す時などに使われる。trinityや Trinotateにも取り…

signalPでシグナルペプチド切断部位を予測する

SignalPは、タンパク質のシグナル配列の切断部位を予測するツール。商用の解析ソフトCLCにも導入されている。 web server版とローカル版がある。 signalIP4.1 webサーバー http://www.cbs.dtu.dk/services/SignalP/ web server版は統合TVを参考にしてくださ…

eukaryotesのアノテーションツール; Augustus

Augustusはblast2goでも使われているeukaryotesのアノテーションツール。既存の他の手法と比較しても精度が高い手法と述べられている(検証リンク)。高速なwebサーバー版と、RNA-seqのbamファイルを指定してexon-intron情報を与え、予測精度を上げるlocal版…

アセンブル結果をCore gene setの検出数で評価する BUSCO

ゲノムのアセンブルやde novo transcriptomeの評価手法の1つに、Core gene setがアセンブルされた配列の中にどれだけあるか調べる方法がある(core genesは構成的に発現していると考える)。そのようなツールとしてCEGMAがよく知られている。CEGMAはversion…

バクテリア、ウィルス、アーキアのアノテーションツール; Prokka

Prokkaは、バクテリア、アーキア、ウィルスのアノテーションツール。はじめにblast+でcore geneを特定し、それからHMMER3を使ってより精度の高い分析が行われる。 インストール インストールはbrewで簡単にできる。公式サイトに従い、まずperlのモジュールを…

変異はどんな遺伝子に起きているのか? SnpEffを使ってindel検出結果のアノテーションを行う

多くのindel検出ツールは変異のポジションしか出力しないため、その変異がどのようなアミノ酸変化を引き起こすか、サイレントなのかは別途調べる必要がある。ただし手動でやるのはしんどいし、間違いの元になる。snpEffはこうした作業をサポートするプログラ…