macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

k-mer

LightAssembler

次世代シークエンシング(NGS)技術の出現はゲノム研究に革命をもたらしたが、シーケンスされた生物の全体像を提供することはできていない。なぜなら、数十億のフラグメント断片の相対位置はゲノムアセンブリなしでは分からず、それらは非常にあいまいな重複…

バクテリオファージのホストを推測する HostPhinder

2012年、世界保健機関(WHO)は抗生物質時代の終焉の始まりと、ささいな細菌感染でさえ致命的になる時代に戻りうることを発表した[論文より ref.3]。それ以来、抗生物質耐性の問題は増大し続けており、WHOレポート「Antimicrobial resistance: global report…

小メモリで高速にtaxonomy assignmentを行う metacache

メタゲノム研究の例として、ヒト腸のシーケンシング解析(Korpela et al、2016)、ヒトの皮膚(Bzhalava et al、2014)、水生生態系(Bork et al、2015)、食物(Ripp et al、2014 )、土壌(Fierer et al、2012)および空中の微生物(Barberánet al、2015)…

k-merを使い 進化距離や相同性を高速計算する Kmer-db

Preprintより 何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された(100K Pathogen Genome Project(Weimer el al、2017、NCBI Pathogen Detection(https://www.ncbi.nlm.nih.gov/ pathogens) )、これは迅速な分析方法を要求する。 …

Fermi-lite

Fermi-liteはHeng Liさん(wiki)がGithubで公開されているスタンドアロンのCライブラリ。イルミナのショートリードを100bpから1,000万bpの領域でアセンブリするコマンドラインツールとしても機能する。Fermi-liteはオーバーラップベースのアセンブリを行う…

somaticとgermlineのバリアント検出ツール Scalpel

注: docker イメージのリンクも紹介してますが、テストするとエラーを吐きました。condaを使いlinuxマシンでに導入するのが無難なようです。 SNVsの分析はヒト遺伝学を研究するための標準的な技術となっているが[論文より ref.1]。、DNA配列(indels)の挿入…

抗生物質耐性遺伝子を検出する KmerResistance

抗生物質は、ヒトおよび家畜の両方で世界中で広く使用されており、疾患の治療または急速な成長を保証している。長年にわたり、これは抗生物質耐性菌の出現、選抜および普及のための好ましい条件を作り出してきた(ref.1)。 バクテリアの耐性プロファイルを…

SPAdesのアセンブリを改善する Shovill

SPAdesゲノムアセンブラは、バクテリアや他の真核微生物(主に1倍体)のIlluminaホールゲノムシーケンシング(WGS)データのデファクトスタンダードのアセンブラとなっている。 SPAdesはVelvetのような以前のアセンブラーよりも大幅に改善されているが、計算…

自動でコンタミネーションを除く ProDeGe

最近の技術的進歩によりハイスループット配列決定シーケンス解析が可能になり、難培養微生物のsingle amplified genomes(SAG; Rinke et al。、2013 ; Swan et al。、2013 )やメタゲノムのアセンブリおよびbinningが可能になった(GMGs; Cuvelierら、2010 ;…

(RNA seq) 複数のde novoアセンブリ結果をマージし、冗長なcontigを除く DRAP

第二世代シークエンシングプラットフォームは、多種多様な種および条件の遺伝子発現を分析することを可能にする、多量の転写産物のシーケンスデータの生成を可能にした。リファレンスゲノム配列を欠く種については、現在の古典的なプロセシングパイプライン…

polyploidのラージゲノムのアセンブラ Meraculous2

ヒトや他のギガベース規模のゲノムの正確なディープショットガンシーケンスは、今や控えめなコストで容易に利用可能になっている。これらのシーケンシングスループットの増加により、大規模かつ複雑なゲノム用のショットガンシーケンスを構築するための新し…

DACCOR

シーケンシングリードからのゲノムの再構築は、デノボアセンブリによって達成でき、重複したリードが同定され、コンティグと呼ばれるより長い連続配列に拡張される。あるいは、highly closedなリファレンスゲノムが利用可能であれば、このゲノムに対してリー…

SPAdes

9/5 タイトル修正 9/6 tips追加 ref.1 人体から海洋までほとんどの環境のバクテリアは研究所でクローン化できないため、既存のNGS(Next Generation Sequencing)技術を使用してシーケンスを決定することはできない。これは、Human Microbiome Project(HMP…

gene-targeted assembler: aTRAM2.0

大規模なシーケンスからの迅速な標的遺伝子座特異的なアセ​​ンブリは、現在、医学から広範囲の系統学までの応用分野で、生物学科学全体で一般的に使用されている。ターゲットアセンブリ手法は、完全なゲノムのデノボアセンブリと比較してアセンブリの計算規…

メタゲノムのgene-targeted assembler: MegaGTA

次世代シーケンシングは、近年のメタゲノミクスの研究を大きく促進してきた。これらの研究は、しばしば何百万から数十億のリードをde novoでアセンブリし、コンティグにして遺伝子アノテーションすることを含む。これは、メタゲノムのアセンブリ効率を大幅に…

高速なメタゲノムのアセンブリツール MEGAHIT

次世代シーケンシング技術は、メタゲノミクスを研究し、ヒトの腸、動物の第一胃および土壌などの様々な微生物群を理解する新しい機会を提供してきた。リファレンスゲノムの欠如のため、メタゲノミクスデータのde novo assemblyは、メタゲノミクス分析のため…

メタゲノムデータをサブサンプリングして繰り返し アセンブリする Spherical

過去10年間、研究者らは、ハイスループットシーケンシングを利用して、世界中の多様な環境からの微生物群集の構造と機能を調べてきた[論文より ref.1、2、3]。これらの研究は、微生物の働きについてユニークで斬新な洞察を提供してきたが、入手可能なツール…

関心のあるバクテリアゲノムのシグネチャを迅速に検出する Neptune

安価かつ迅速に大量のシーケンスを生成する能力は、生物、特にバクテリアのような比較的小さなゲノムを有する生物全体のゲノムを研究する能力を可能にした。計算生物学者は、歴史的に、少数のバクテリアゲノムを比較し、ヌクレオチド、遺伝子およびゲノムス…

NGSデータからプラスミドを検出するplasmidseeker

プラスミドは、自律的複製および接合が可能な環状または線状の二本鎖DNA分子である。プラスミドは生命の3界すべてに記述されている(Antipov et al、2016)。細菌プラスミドは、ヒトに有毒な多剤耐性細菌の急速な増加に寄与しているホストへの有益な特性を…

Y染色体由来リードをエンリッチする RecoverY

ハプロイド哺乳動物Y染色体配列は、大規模な次世代配列決定(NGS)プロジェクトではいくつかの理由により適切に組み立てられないことが多い。 Yは女性には存在せず、男性に1コピーのみ存在する。したがって、所望のシーケンスデプスを得るためには、2倍シー…

k-merを使いアライメントフリーでバリアントをコールする kestrel

アライメントツールはエラーやバラツキを処理するように設計されているが、リファレンスとは大幅に異なるシーケンスリードを確実に正しい場所に割り当てることはできない。アラインメントの信頼性が低いと、バリアントコールの信頼性が低くなり、真のバリア…

MinHashを使いfasta / fastqから生物種を高速推定する BBSketch

以前このブログで紹介したBBtoolsに、いつのまにか、Minhashアルゴリズム(リンク)を使ってわずか数秒でゲノムなどの大きな配列を比較し、トップヒットを返してくれる機能が実装されている。Biostarsに使い方が載せてあったので、紹介しておきます。 BBtool…

小メモリで高速にメタゲノムのtaxonomy assignmentを行う metaOthello

2018 10/7 タイトル修正 Metagenomicsとは、興味ある環境から得られたゲノム研究であり、例えばヒトの体内(Huttenhower and Human Microbiome Project Consortium、2012)、海水(Venter et al。、2004)、酸性雨排水(Tyson et al 、2004)などが例として…

K-mer分析ツールキット KAT

ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGSデータを分析するためのリファレンスが不要なアプローチは、基本的な品質、リード長、GC…

k-merを使ったリードフィルタリングを行う Cookiecutter

次世代シークエンシング技術は、より安価になり、ルーティンの分析に役立っている。アセンブリの前に未処理のリードから特定のシーケンスを抽出または削除することを必要とする多くのタスクがある。抽出された領域特異的なリード(例えば、mtDNAまたはrRNAか…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。しかしながら、これらのゲノムの最も基本的な特徴、例えばサイズまたはヘテロ接合率などは、最初は未知であり、例えばリードマッパー、デノボアセンブラ、SNP…

リファレンスフリーで家族内変異や病変組織の変異を調べ、数十以下まで候補を絞り込む DIAMUND

追記 4/16 エラーが大量に出たので内容を修正しました。 遺伝性疾患と癌の両方を含む、疾患の原因である突然変異を発見するためのゲノムシーケンシングの使用は、近年爆発的に増加している。全ゲノムシーケンスおよび全exomeシーケンスは、疾患表現型の原因…

抗生物質耐性遺伝子のde brujin graphを出力する metacherchant

抗生物質に対する微生物の抵抗性(抗生物質耐性、AR)の広がりは、世界的な医療問題である。多剤耐性の病原性微生物は特に危険性が高い。 AMR(O'Neill、2016)の報告書によれば、AR関連死亡者の負担は、2050年までに年間1000万人、世界的な経済的負担は100…

メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的およ…