macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

2017

haplotype-awareなVCFのアノテーションを行う BCFtools/csq

シーケンシングされたエクソームおよび全ゲノムサンプルの数が急速に増加しており、最も関心のあるバリアントの膨大な量のデータを迅速に選別できることが重要になっている。このプロセスの重要なステップは、シーケンスバリアントを取得し、機能効果のアノ…

植物の生合成遺伝子クラスターを予測するwebサービス plantiSMASH

バクテリア、菌類、植物は、それぞれが関与する多様な生物間相互作用において、地球全体で独自の特定の生態学的役割を持つ特殊な代謝産物の非常に多様性を生み出している。この多様な特殊な代謝は、医薬品、農業、製造業で広く使用されている天然物の豊富な…

ゲノム間のオロソログを予測してシンテシーブロックとして視覚化する Synima

オーソロガス遺伝子は、タンパク質または機能的RNA分子をコードする核酸のセクションであり、単一の祖先遺伝子から派生し、その後に種分化により分岐している[ref.1、2]。対照的に、パラロガスな遺伝子は、単一の種内の重複から生じたものである。 OrthoDB […

パンゲノム解析を行うためのprokaryotesゲノム情報のデータベース proGenomes2

2019 10/27 twitter追記2 019 10/27 ブラウザについて追記 大規模ゲノミクスは、微生物の理解を深めるために役立っている。微生物学は、数千のシーケンスされたゲノムを利用できるデータ集約型の分野に発展した(ref.1–3)。過去20年以上にわたり、シークエ…

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加 2019 10/26 インストール手順修正 2019 10/29 同上 2019 10/29 コメント追加 メタゲノミクスおよびメタトランスクリプトミクス研究は、多様な環境からの微生物集団の組成および機能に関する貴重な洞察を提供するが、培養株の遺伝子…

VCFとPEDから予測される家系、性別、祖先関係を元にサンプルの潜在的な汚染を見積もる Peddy(ヒト向け)

ヒトDNAシーケンス研究では、多くの場合、複数の研究所や個人によるDNAサンプルと関連するマニフェストの取り扱いが含まれる。 WESとWGSの両方のプロトコルには、シーケンス前の複数のDNA操作が含まれる。新しい手順や処理はそれぞれ、サンプルの混同、汚染…

prokaryotic virusのcontigをクラスタリングしTaxonomic assignmentを行う vContact2

2019 9/25 誤字修正 細菌と古細菌は、海洋と土壌の生態系での栄養とエネルギーのサイクルに役割を果たしており、人間の健康にも重要な役割を果たしている。細菌や古細菌に感染するウイルスは、殺害、代謝再プログラミング、または遺伝子導入によってこれらの…

タンパク質のホモリピートを分析するwebサーバー dAPE

Low Complexity(LC)は、タンパク質中のタンデムリピートおよびcompositionally biased regions(CBR)のようなアミノ酸組成にほとんど多様性がない領域を説明するために使用される一般用語である。ホモリピート、またはpolyX領域は、単一のアミノ酸残基の…

興味があるタンパク質情報を文献やデータベースからマイニングする PaperBLAST

ゲノムシーケンスは、タンパク質の機能が決定される速度をはるかに超えて、新規タンパク質の発見を加速している(ref,1)。ゲノムシーケンスを解釈し、これらの予測されたタンパク質の役割のアノテーションを付けるには、新規タンパク質と特徴付けられたタン…

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

GOアノテーション間の関係と類似性を調べるwebサーバー NaviGO

遺伝子の機能解明は、バイオインフォマティクスを含む現代の生物学における中心的な問題の1つである。体系的な機能的アノテーションのために、GOは遺伝子機能の語彙(以後、term)として広く使われている[ref.1]。 GO termは、term間の親の関係が表されてい…

包括的なfunctional annotationを行うwebツール FunctionAnnotator

シーケンス技術の向上により、次世代シーケンス(NGS)がトランスクリプトーム研究にますます頻繁に使用されている。適切なリファレンスゲノムがないため、非モデル生物のトランスクリプトームの分析はモデル生物のトランスクリプトームと非常に異なる。 Tri…

アラインメントフリーの配列比較GUIツール CAFE

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global(ref.1)およびlocal(ref.2)シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST(ref.3)のようなアラインメントベースの…

illuminaと454の前処理ツール seqyclean

最新のハイスループットシーケンス機器は大量のデータを生するが、これにはシーケンスエラー、シーケンスアダプタ、汚染されたリードなどのノイズが含まれていることがよくある。このノイズはゲノミクス研究を複雑にする。シーケンスノイズを減らすために多…

アセンブリ配列の16S rRNA相同性からシーケンシングデータの汚染を素早く見積もる ContEst16S

近年、次世代シークエンシング(NGS)と呼ばれる新しいDNAシークエンシング技術の開発により、ゲノムシークエンシングのコストと時間が劇的に減少した。現在、publicデータベースの原核生物ゲノム配列数は約7万に達している(論文執筆時点)。大規模ゲノムデ…

メタゲノムのビニングを行う COCACOLA

アセンブリはコンティグを生成するが、それ以上の分類学的なプロファイリングや機能解析のためには、OTUに分類することが重要である。このOTUクラスタリングはビニングとも呼ばれる。しかしコンティグの正確なビニングは、ゲノム中のリピート配列、シークエ…

メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた(ref.1-4)。従来の単離培養工程の独立性は、費…

MMseqs2 コマンド其の2 タンパク質配列のクラスタリング

インストール 以前の記事を参照 > mmseqs $ mmseqs MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast, parallelized protein sequence searches and clustering of huge protein sequence data sets. Please…

GO enrichment解析データベース agriGO v2.0

2019 6/13 追記 エンリッチメント解析は、大量の遺伝子リストに関連する機能を決定し、生物学的過程を解釈する可能性を高めるための効率的かつ迅速な方法である(ref.1)。Biological processes(BP)、molecular functions(MF)、cell components(CC)に…

viral quasispeciesのアセンブリを行う SAVAGE

2019 5/20 誤字修正、コメント、ヘルプ追加 HIV、Zika、Ebolaなどのウイルスは、一般的にウイルス準種(viral quasispecies, wiki)と呼ばれる、遺伝的に関連しているが異なる変異株の集団として宿主に存在する。それぞれ独自のハプロタイプ配列によって特徴…

metaSPAdes

メタゲノムシーケンシングは、細菌集団の分析ならびに新規な生物および遺伝子の発見のための選択技術として浮上している(Tyson et al, 2004、Venter et al, 2004、Yooseph et al, 2007、Arumugam et al, 2011)。初期のメタゲノミクス研究の1つにおいて、Ve…

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

次世代シーケンス(NGS)データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

ターゲットアンプリコンシーケンシングのプライマーを除く cutPrimers

リードからのプライマーの切断は、ターゲットアンプリコンのNGSデータを処理する上で重要なステップである。既存のツールは、リードから1つまたはいくつかのプライマー/アダプター配列を切断し、そして出現するそれらすべてを除去するように適合されている…

病原性細菌の同定とタイピングを行うwebツール PathoBacTyper

生物のゲノムDNAは生物学的にfunctionalな遺伝情報を持っている。生物の全ゲノム配列を解読することは、複雑な生物学研究における基本的なタスクである。以前は、完全なバクテリアゲノム配列を解読するために従来のサンガーシーケンシングが使用されていた。…

複数のtranscritome情報(gtf)をマージする TACO

ハイスループットRNAシークエンシング(RNA-Seq)により、トランスクリプトームの詳細な理解が可能になった(ref.1–3)。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエンシング法(ref.4–…

メタゲノムシーケンシングリードからCRISPRスペーサーを検出する MetaCRAST

原核生物のゲノムに見られる clustered regularly interspaced short palindromic repeat (CRISPR) arraysは、我々がより多くの生態系において重要なウイルス - 微生物相互作用をよりよく理解するのを助け得る。ウイルスは溶菌感染を介して細胞内の栄養を生…

コンタミやダメージを考慮してAncient DNAのシーケンシングリードをシミュレートする gargammel

Ancient DNA(aDNA)とも呼ばれるsubfossilsから回収されたDNAは、populationの歴史を再構築するためにますます使用されている(Leonardi et al、2016)。しかし、下流の推論に影響を与える可能性があるいくつかの要因があるため、aDNAデータの分析は依然と…

スモールゲノムを可視化したり、複数ゲノムを比較して似た領域、異なる領域を可視化できる Gview

グラフィックなゲノムマップは、ゲノムの特徴および配列の特徴を評価するために広く使用されている。 CGView(Circular Genome Viewer)ソフトウェアファミリーは、バクテリア、オルガネラ、ウイルスのゲノムマップを生成するためのツールの人気のあるコレク…

遺伝子水平伝播を検出する kvasirHGT

マイクロバイオームの組成を特徴付けること、そして自然システムの生態学、農業および人間の健康におけるそれらの重要性を理解することにおいて、大きな進歩がなされてきた。しかしながら、これらの進歩にもかかわらず、マイクロビオームの多様性、構造、お…

メタゲノムのphage contigからホスト原核生物ゲノムを予測する WIsH

ウイルスは、ほとんどすべての既知の生態系の重要な構成要素である(Edwards and Rohwer、2005)。それらは、優占種を枯渇させることによって海洋から人間の腸までの様々な環境における生物多様性を調節し(De Paepe et al、2014; Lehahn et al、2014)、海…