macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

assembly

ONTのロングリードのアセンブリとポリッシュ

2018年2月のNature CommunicationsにシロイヌナズナのゲノムをONTのロングリードを使ってアセンブリした論文( PCR-free paired-end readsでpolish)が出ている(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5803254/)。ONTの MinION R9.4 flowcell (FL…

GCによって仕分けメタゲノムアセンブリを改善する GCSplit

メタゲノミクスは、土壌、海、さらには人体のような様々な環境でコミュニティとして共生するバクテリアの集合したDNAを決定することにある[論文より ref.1-3]。ある意味では、メタゲノミクスの分野は、科学者が特定のコミュニティに存在するすべての生物を調…

K-mer分析ツールキット KAT

ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGSデータを分析するためのリファレンスが不要なアプローチは、基本的な品質、リード長、GC…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。しかしながら、これらのゲノムの最も基本的な特徴、例えばサイズまたはヘテロ接合率などは、最初は未知であり、例えばリードマッパー、デノボアセンブラ、SNP…

ターゲットに特異的なコア配列のプライマーを設計する RUCS

ポリメラーゼ連鎖反応(PCR)は、分子生物学における最も重要な科学的進歩の1つである。これは、DNAの特定の配列をコピーするための安価な技術である。 PCRは、医療、法医学、および研究のアプリケーションに不可欠なツールになっている。 PCRは、感染性病原…

ロングリードを使い環状DNAかどうか調べる Circlator

デノボアセンブリの課題は、世界初の自動DNAシーケンサーの登場以来ずっと存在していた。初期ゲノムシーケンスデータのアセンブリは、大きく2つの戦略に基づいていた:BAC / YACタイリングまたは全ゲノムショットガン[論文より ref.1]。これらのストラテジー…

メタゲノムデータ間の類似性を計算し可視化する metafast

最近、コンピュータ生命科学者たちは、利用可能なショットガンメタゲノミックデータセットの量が驚異的に増加するのを目の当たりにしている。データ分析の次元性を低下させるという課題は、メタゲノムの統計分析の第一の要求である。これには、分類学的およ…

highly heterozygous なゲノムのアセンブリパイプライン Redundans

ショートリードからのゲノムアセンブリは、複雑な計算上の問題である。この課題に取り組むために、数多くのゲノムアセンブラが開発されている(論文より ref.1-5)。典型的には、シーケンス中にある程度の異種性(例えば、一倍体でない生物、細胞または個体…

ONTリードのレイアウトを計算しコンセンサス配列を出力する spectrassembler

イルミナのようなハイスループットシーケンシング技術は、リード長は犠牲になるがシーケンシングコストは大幅に減らすことができる。しかし、ゲノムにはリピート配列が含まれているため、デノボアセンブリで問題になる。PacBioのSMRTやOxford Nanopore Techn…

アセンブル結果をリファレンスと比較して構造変化などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

アセンブリ結果を評価する CGAL

ゲノムアセンブリは、元のゲノムを再構成するために、ショットガン配列決定によって産生されたDNA配列の断片を合併するプロセスである。アセンブルの問題は、多数の式からNP困難であることが知られており[論文より ref.1〜3]、またシーケンシングエラー、実…

ハイブリッドアセンブルを行う hybridSPAdes

de Bruijnグラフのアプローチは現在、ショートリードシーケンシングプロジェクトを支配しているが、ロングリードを組み立てるアプリケーションはさまざまな課題に直面している。事実、ロングリードでのエラー率が高いと、k-merサイズの任意の合理的な選択に…

バクテリアのレプリコン情報によってcontigの並びを予測する eRParranger

微生物学では、全ゲノムシーケンシングはもはやユニークなタイプの解析ではなく、現在は個々の研究研究の中で行われている[論文より ref.1,2]。この最近の変化は、大量のデータを効率的に処理するためのバイオインフォマティクスソフトウェアの改善とともに…

ロングリードのドラフトアセンブルからコンセンサスを出力する Racon

Pacific Biosciences(PacBio)およびOxford Nanopore Technologies(ONT)のロングリードシーケンシング技術の出現により、高いcontiguityを有するゲノムアセンブリを生産する能力は著しい進歩を遂げた。しかし、これらの技術の比較的高いエラー率(> 5%)…

   RNAシーケンスデータを使いアセンンブルを改善する Rascaf

近年、配列決定されたゲノムの数と多様性が非常に増加している(論文より Reddy et al、2015)。 13,000以上の真核生物が配列決定されているか、配列決定の過程にあり、数百の植物や動物を含むより多くのものが計画されている。大部分のモデル生物は、高品質…

   ペアエンドRNAシーケンスを使いアセンブルを改善する P_RNA_scaffolder

ゲノムシークエンシングプロジェクトでは、遺伝子の同定は機能的研究と比較分析の基本である。メイトペアライブラリーおよびロングリードは高品質のアセンブリの生成を容易にするが、すべての遺伝子の完全な構造を回復することは困難であり、解決にはnovelな…

   真核生物ゲノムにも対応したReference-assisted assemblyツール MEDUSA

ショートリードシーケンシングデータのデノボアセンブリでは、通常、断片化された配列セット(コンティグ)が生じる。このようなコンティグの順序および方向の決定は、ゲノムのFinishingに向けた最初の些細ではないステップを表しており、手動編集を必要とす…

   ロングリード単独またはNGSとの併用でコンセンサス配列を得る Sparc

以前の世代と比較して、第3世代シークエンシング(以後 3GS)は5〜120 kbのリードを得ることができる。しかし、現時点で報告されているエラー率はPacBioシークエンシング(論文より Koren et al、2012)で約15%、オックスフォードナノポア配列決定(Laver e…

似たゲノムと比較してアセンブリのFinishingをサポートするwebツール CONTIGuator2

NGS解析技術の発展により特にバクテリアのゲノム解析が容易になり、関連するゲノムの数も劇的に増加した。しかしゲノムのアセンブリは簡単に自動化することはできない。 事実、ドラフトのギャップを埋めるために、一連のPCRを設計しなければならない。 この…

高速なラージゲノムのハイブリッドアセンブルツール DGB2OLC

第3世代シークエンシング技術は、アセンブリの品質を大幅に向上させた。 しかしながら、効率的なゲノムアセンブリアルゴリズムが欠如していることは、間違いなく第3世代シーケンス技術の普及への最大の障害となっている。高い誤り率は、ロングリードのアセン…

シングルセルにも対応したシーケンスデータの削減と正規化ツール NeatFreq

Multiple displacement amplification(MDA)は、培養できない生物のシングルセルシーケンスおよびゲノムアセンブリを可能にする[ 論文より ref.1]。 MDAはまた、メタゲノムシーケンシングでの使用のために低バイオマス環境サンプルからDNAを増幅するために…

高カバレッジな細菌ゲノムのdenovoゲノムアセンブリツール HGA

デノボゲノムアセンブリにはgreedy strategy、string overlap graph、そしてde Bruijn graphの3つの主なアプローチがある。greedy strategyは、シードリードを選択し、最大のオーバーラップが可能になるまで貪欲に拡張していくことによって機能する。このア…

メイトペア情報を使いスキャホールドの誤りを検出する NxRepair

ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…

de novo transcriptome assemblyの適切なk-merレンジを推定する KREATION

de Bruijn graphを使ったde novoトランスクリプトームのアセンブルでは、単一のk- merより異なるk merのアセンブル結果を統合した方が感度が増す。KREATIONは関連するアセンブリの比較クラスタリングを使用して、追加のkmerアセンブリの重要性を推定するツー…

シングルセルのアセンブルツール HyDA

大部分の微生物は一般的な培地では培養不能で、シングルセルシーケンスは微生物の洞察を得るための重要な方法となっている。シングルセルシーケンスには、全ゲノム増幅によってDNAをランダム増幅させる必要があるが、シーケンスバイアスが非常に大きいという…

NGSのリード情報を使いスキャッホールドのギャップを埋める FGAP

FGAPはドラフトゲノムのギャップを埋めるためのツール。BLASTを使用して、複数のコンティグをドラフトゲノムアセンブリに対して整列させ、ギャップを埋めるために最良のシーケンスを検出する。ヒトchr14では、ギャップの数を35%減少させたと述べられている…

ペアエンドリードを使いミスアセンブリを検出する misFinder

ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoの…

リファンレンスガイドのトランスクリプトのアセンブル TransComb

TransCombは、junction graphに基づいて開発されたゲノムガイドのアセンブルツール。ペアのショートリードとリファレンスゲノムを使い、RNA seqのシーケンスデータをアセンブルする。複数種のシミュレーションデータセットとリアルデータセットの両方でテス…

GC-skewと複数アセンブルデータを使ってバクテリアのゲノムアセンブリを改善するGUIツール GFinisher

GFinisherはゲノムのアセンブルで得たコンティグを、似たゲノムの情報と他のアセンブルツールのコンティグ情報を使い、contiguityを改善するツール。始めに似たゲノムにコンティグを貼り付け、他のコンティグ情報も使いターゲットのコンティグを並べ替える。…

ロングリードやcontig情報を使いスキャッホールドのギャップを埋める GMcloser

NGSのリードやアセンブルしたコンティグを使い、スキャッホールドのギャップを埋めるツールがいくつか発表されているが、オーサーらは、これらのツールに起因するアセンブリのエラー率が、デノボアセンブルで起こるエラー率よりも20〜500倍高いことを指摘し…