macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

生物種の推定

MinHashを使い高速にゲノムを比較する MASH

BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超えるシーケンス生成が可能である[ref.3]。この規模のデータを管…

MinHashを使いfasta / fastqから生物種を高速推定する BBSketch

以前このブログで紹介したBBtoolsに、いつのまにか、Minhashアルゴリズム(リンク)を使ってわずか数秒でゲノムなどの大きな配列を比較し、トップヒットを返してくれる機能が実装されている。Biostarsに使い方が載せてあったので、紹介しておきます。 BBtool…

小メモリで高速にメタゲノムのtaxonomy profilingを行う metaOthello

Metagenomicsとは、興味ある環境から得られたゲノム研究であり、例えばヒトの体内(Huttenhower and Human Microbiome Project Consortium、2012)、海水(Venter et al。、2004)、酸性雨排水(Tyson et al 、2004)などが例として挙げられる。メタゲノミク…

メタゲノムのtaxonomyアノテーションを行い定量する MGmapper

迅速で効率的なDNAシーケンシング技術の進歩により、堆積物[論文より ref.1] [ref.2]、水[ref.3]、氷[ref.4]、ヒトなど様々な環境から微生物群集を研究することが可能になった[ ref.6]。既知のDNA配列決定プラットフォームの中で、イルミナHiSeqおよびMiSeq…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

NGSデータから素早くバクテリアの分析を行う MICRA

ハイスループットシーケンシング(HTS)技術は多くの微生物学的問題に対処するための費用対効果の高い便利なアプローチとして浮上し、この分野を大きく変えている。完全なゲノム情報にアクセスすることは、微生物学における基礎研究に革命をもたらし、例えば…

バクテリアをstrainレベルで検出する StrainSeeker

病原性細菌の検出には、細菌病原体を迅速に同定する必要がある。このために、通常、病原体は単離され、PCRや全ゲノム配列が行われる。分子タイピングの主な目標の1つは、病原体をクローン群に分類することである。なぜなら、同じ種の系統は宿主に対して大き…

kallistoを動かしメタゲノムからウィルスゲノムを高速に検出・定量する FastViromeExplorer

伝統的なウイルス同定法は単離および培養に依存しており、時間がかかるだけでなく、多くのウイルスおよび宿主が培地で増えないため実行不可能なことも多い。 2004年に登場したNGSの技術により、ウイルスとその存在量を迅速に測定することが可能になった。ウ…

krakenによるメタゲノムデータの高速なtaxonomyラベリング

krakenは2014年に発表されたメタゲノムデータの分類手法。fastqまたはfastaの入力からk-merの配列に分解し、構築したデータベースにアライメントを行う。BLASTと同等の精度を保ちながら、megablastより最大909倍高速と主張されている。似たツールにメタゲノ…

MetaPhlAn2によるメタゲノムデータの解析

MetaPhlAn2は、メタゲノムシーケンスデータから、どのような生物がどのくらいの割合でいるのか評価するツールである。種の同定が可能なのは、著者らが要した100万以上のマーカー遺伝子が生物と紐付けされていて、そのデータベースの配列にアライメントを行う…

PanPhlAnによるメタゲノムのプロファイリング

PanPhlAnはメタゲノムをstrainレベルで解析するツール。調べるのは遺伝子の有り/無しで、データベースのゲノムと比較することでメタゲムシーケンスしたバクテリアの特定の種に、実際にはどれくらいの多様性があるか(どれくらいのstrainが混じっているか)を…