macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ゲノム比較

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作するためのツールボックスである。MinHash sketchは、大規模なDNAまたはRNAシーケンスコレクションの"signatures"を保存し、Jaccard indexを使用してそれらを比較または検索するための軽量な方…

アセンブリ配列を使って全ゲノムMLST (wgMLST) を行い、アレルプロファイルから系統を比較・再構成する fast-GeP

2018 11/16 tips追記 Multilocus sequence typing(MLST)などの遺伝子ベースのタイピング法は、バクテリアpopulationsのゲノム研究のための「ゴールドスタンダード」である(Maiden et al、2013; Sheppard et al、2012)。大量の全ゲノムシーケンシング(WG…

複数ゲノムを比較し、結果をインタラクティブに視覚化する AliTV

2018 11/12 リンクエラー修正 過去10年にわたるショートリードシーケンシング、ロングリードシーケンシングおよびアセンブリの進歩(Salzberg et al、2011; Chin et al、2013; Hackl et al、2014)は、全ゲノムシーケンシングの扉を様々な分野の生物学者に開…

たくさんのスモールゲノムを比較したり、複数メタゲノムアセンブリのde-replicationを行う dRep

メタゲノム研究により、シーケンシングされ、ドラフト品質ゲノムが解読される微生物ゲノムの数は毎年急速に拡大している。大きなゲノムセットを包括的に比較するための迅速なアルゴリズムが開発されているが、ドラフト品質のゲノムでは正確ではない。ここで…

ホストゲノムや汚染配列を検出し、分離を助ける PhylOligo

シーケンシング技術の発展により、複雑な非モデル生物ゲノムおよび生物共同体のゲノムをシーケンシングの標的とすることが可能になった。これらの非モデル生物のいくつかは、それらの環境から単離することが困難だったりin vitroでクローン化ができなかった…

MinHashを使った高速なANI計算ツール fastANI

さまざまな生態学的背景と進化の歴史を持つ原核生物ゲノムのコレクションが公開されている。このゲノムデータの大洪水は、微生物生態学と進化における重要な問題をより堅固に評価する機会を提供し、大きなゲノムデータの分析のための既存のバイオインフォマ…

ゲノムなどの長い配列同士を比較し、違いをレポートする NucDiff

2018 10/13 コマンドエラー修正 全ゲノムシーケンシング戦略およびアセンブリアプローチの進歩により、一連の配列を互いに比較する方法が必要となっている。共通のクエスチョンは、同じリードセットの異なるアセンブリプログラムから得られたアセンブリ配列…

ANItoolsをwebで実行できるANItools web

単離されたバクテリア株の迅速かつ正確な分類は、医療微生物学、特に全国的または全世界的な広がりの脅威を伴う感染症発症中の最も重要な課題である(論文より ref.1)。しかし、現在の分類方法はすべて、表現型の類似性や化学的性質に基づく方法のみならず…

ラージゲノムにも対応したdot plot解析ツール D-GENIES

ドットプロットは、2組のシーケンスを視覚的に比較するために一般的に使用される。それらは挿入、欠失、逆位またはリピートを容易に理解できる方法で提示する。可変の線の太さ、線の形または色を使用して類似点の差異を表すことができる。産生されるゲノムア…

mauveを使いcontigをリファレンスfasta順に並べ替える

http://darlinglab.org/mauve/user-guide/reordering.html より。 インストール mac os 10.13でテストした。 mauveのHPからインストーラーをダウンロードする。 http://darlinglab.org/mauve/download.html ラン 1、起動したらメニューのTools からMove Cont…

既知の二次代謝産物生合成遺伝子クラスターを検出する antiSMASH

二次代謝産物または特殊代謝産物とも呼ばれる天然の産物(Natural products)は、多くの薬の基礎であり、農業および栄養学の応用にとって重要な分子でもある。さらに、分子生物学および細胞生物学の多くの側面を研究する化学プローブとして科学研究に重要な…

k-merを使い 進化距離や相同性を高速計算する Kmer-db

Preprintより 何千もの異なる生物のシーケンシング解析の過程で大量のデータが生成された(100K Pathogen Genome Project(Weimer el al、2017、NCBI Pathogen Detection(https://www.ncbi.nlm.nih.gov/ pathogens) )、これは迅速な分析方法を要求する。 …

ゲノムのドットプロット解析を行うツール Dot

ゲノムをMUMmerのnucmerコマンドで相互にアライメントさせた後、ドットプロット(wiki)形式で視覚化するためのツール。 本体 Github(python3.6) https://github.com/dnanexus/dot また、このリポジトリをcloneし、Webブラウザでindex.htmlファイルを開く…

構造変化のリードアライメント状況やゲノム比較結果を可視化する Ribbon

Visualizationは、現在のゲノム革命において、バリアント、発現パターン、進化による変化、および他の多くの関係を検査し、理解するために非常に重要な役割を果たす(Preprint ref.1~3)。しかし、構造変化可視化時のリードとリファレンス、またはリファレン…

関心のあるバクテリアゲノムのシグネチャを迅速に検出する Neptune

安価かつ迅速に大量のシーケンスを生成する能力は、生物、特にバクテリアのような比較的小さなゲノムを有する生物全体のゲノムを研究する能力を可能にした。計算生物学者は、歴史的に、少数のバクテリアゲノムを比較し、ヌクレオチド、遺伝子およびゲノムス…

CircosをWeb上 で利用できる ClicO FS

Circos(Krzywinski et al、2009)(HP)は、ビジュアルデータを環状形式で表現するPerl言語ベースのツールである。ネイティブのCircosソフトウェアは、コマンドラインインターフェイス(CLI)を介して提供されている。ソフトウェアのインストールと設定は、…

MinHashを使い高速にゲノムを比較する MASH

BLASTが1990年に初めてpublishされたとき、公開されたアーカイブには5000万塩基以下の塩基配列しか存在しなかった[論文より ref.2]。現在では、1つのシーケンシング機器1回の実行で1兆塩基を超えるシーケンス生成が可能である[ref.3]。この規模のデータを管…

K-mer分析ツールキット KAT

ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGSデータを分析するためのリファレンスが不要なアプローチは、基本的な品質、リード長、GC…

k-mersからゲノムの類似性を高速計算する kWIP

DNAシークエンシングの主な用途は、試料の遺伝的構成を互いに比較して共通性を同定し、したがって関連性を検出するか、またはその差を利用して機能を解明することである。最初に、仮定された遺伝的系統および複製を確認するか、またはサンプルを家族、集団お…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。しかしながら、これらのゲノムの最も基本的な特徴、例えばサイズまたはヘテロ接合率などは、最初は未知であり、例えばリードマッパー、デノボアセンブラ、SNP…

ゲノムを比較する MUMmer

2018 9/1-9/6 アライメントワークフロー 2018 11/25 誤字修正 MUMmer3 シーケンスアライメントパッケージ[mummer4論文より ref.1]の2004年のpublish以来、バイオインフォマティクスのランドスケープは劇的に変化した。シーケンスデータを生成するコストは急…

NGSデータから素早くバクテリアの分析を行う MICRA

ハイスループットシーケンシング(HTS)技術は多くの微生物学的問題に対処するための費用対効果の高い便利なアプローチとして浮上し、この分野を大きく変えている。完全なゲノム情報にアクセスすることは、微生物学における基礎研究に革命をもたらし、例えば…

メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的およ…

倍数体のfractionation biasを視覚化する FractBias

全ゲノム重複(WGD)などの倍数性事象は、単一の生物体内に2つ以上のゲノムコピーを作成する。重複(サブゲノム)に由来するホモロガスな染色体の全セットは、遺伝子が相同染色体の1つからlossするfractionationと呼ばれる過程で遺伝子欠損を受ける(Langham…

アセンブル結果をリファレンスと比較して構造変化などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

Genomic islandsを検出し視覚化する IslandViewer

ゲノムアイランド(GIs)は、一般に、バクテリアゲノムまたはアーキアゲノムにおける水平伝達が起源の遺伝子のクラスターとして定義される(wiki)。GIはゲノム進化の主要な推進因子であり、ニッチ(論文より ref.1,2)内のバクテリアおよびアーキアの適応度…

新規にシンテシー解析が可能な SynFind

保存されたシンテニーは、共通のゲノムを共有することによって支持される遺伝子間の推測された相同性関係を指し、生物のすべての領域にわたって広く使用される測定法である(論文より Moreno-Hagelsieb et al, 2001; Engstrom et al, 2007; Heger Ponting 20…

複数種間でシンテシーブロック比較が可能なweサーバー Synteny Portal

Genome 10K Project(論文より ref.1)、 Bird 10,000 Genomes (B10K) Project(ref. 2)、i5k: Sequencing Five Thousand Arthropod Genomes Project(ref.3)など、様々な大規模ゲノムプロジェクトの成果とともに、様々な種から大量のゲノム配列が蓄積して…

Synteny blockを検出して、染色体の類似領域を可視化する Cinteny

Cintenyは類似の生物間のゲノム配列を比較し、Synteny block(wiki)で描画するツール。人やマウスなどのデータについてはビルド済みのwebサーバーが提供されており、すぐにゲノム比較を行うことができる。 webサーバー http://cinteny.cchmc.org 使い方につ…

ゲノムを比較し、染色体間の組み替えを可視化する SMASH

SMASHは2つの相同なゲノム(染色体)を比較し、組み替えを見つけて結果をビジュアル出力できるツール。解析にはNGSのデータなどは必要としない。純粋にchromosomeの配列だけを使って相同性のある部位や組み替え部位が検出される。霊長類のような大きなゲノ…