contigのscaffolding
2018 11/27 誤字修正 Scaffoldingはすべてのゲノムアセンブリパイプラインの重要なステップである。scaffoldingにより、メイトペアライブラリやロングリードなどのさまざまなタイプのリンケージ情報を使用してコンティグをより長い配列にアラインできる。 こ…
Pos 最近の全ゲノムシーケンシング(WGS)技術のコストの低下は、様々な原核生物のシーケンシングの増加をもたらした。典型的なゲノミクスプロジェクトでは、データマイニングの前にシーケンシングリードを処理する必要がある(Hasman et al、2014; Rhoads e…
近年のハイスループットシーケンシング(HTS)技術は、低コストで数百万の短いDNA配列(リードと呼ばれる)を生成するため、デノボアセンブリプロジェクトにとって魅力的である。しかしながら、これらのリードは数百bpの長さしかないため、アセンブラ(例え…
DNAシーケンシング技術の継続的な進歩により、適度なコストでますます多くのゲノムが迅速にシーケンシングできるようになっている(論文より ref.1)。しかしながら、現在のDNAシーケンシングプラットフォームから生成された膨大な数のリードのアセンブリに…
はじめに この記事はレビュー論文の要約です。チェックリスト、または思考を整頓するガイドとして使ってください。ただし、この要約で論文を読んだことにはなりません。時間が許す限り原著論文を読むことをお勧めします。review articleは各段落が一般論で構…
染色体の組み立ては、あらゆる真核生物ゲノムプロジェクトの重要な部分である。組み立てられたゲノムの数は毎年増加し、それらの多くは物理的な染色体地図に固定されている[論文より ref.1]。堅牢な黒モソームのデノボアセンブリは、異なるインサートサイズ…
微生物学では、全ゲノムシーケンシングはもはやユニークなタイプの解析ではなく、現在は個々の研究研究の中で行われている[論文より ref.1,2]。この最近の変化は、大量のデータを効率的に処理するためのバイオインフォマティクスソフトウェアの改善とともに…
近年、配列決定されたゲノムの数と多様性が非常に増加している(論文より Reddy et al、2015)。 13,000以上の真核生物が配列決定されているか、配列決定の過程にあり、数百の植物や動物を含むより多くのものが計画されている。大部分のモデル生物は、高品質…
ゲノムシークエンシングプロジェクトでは、遺伝子の同定は機能的研究と比較分析の基本である。メイトペアライブラリーおよびロングリードは高品質のアセンブリの生成を容易にするが、すべての遺伝子の完全な構造を回復することは困難であり、解決にはnovelな…
ショートリードシーケンシングデータのデノボアセンブリでは、通常、断片化された配列セット(コンティグ)が生じる。このようなコンティグの順序および方向の決定は、ゲノムのFinishingに向けた最初の些細ではないステップを表しており、手動編集を必要とす…
NGS解析技術の発展により特にバクテリアのゲノム解析が容易になり、関連するゲノムの数も劇的に増加した。しかしゲノムのアセンブリは簡単に自動化することはできない。 事実、ドラフトのギャップを埋めるために、一連のPCRを設計しなければならない。 この…
ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…
FGAPはドラフトゲノムのギャップを埋めるためのツール。BLASTを使用して、複数のコンティグをドラフトゲノムアセンブリに対して整列させ、ギャップを埋めるために最良のシーケンスを検出する。ヒトchr14では、ギャップの数を35%減少させたと述べられている…
次世代のシーケンシングの進歩により、膨大な量のショートリードが生成されている。しかしながら、ショートリードからゲノム配列を組み立てることは依然として困難な作業である。ゲノム中の大きなリピートのために、通常、現在のアセンブリツールの多くはシ…
リファレンスを足場として使い、コンティグからドラフトゲノムを構築するツールがいくつか提案されているが、ターゲットと参照するゲノムとの間に再編成が起きていたり、系統関係が遠いと誤ったスキャッホールドを生成する可能性がある。これは、単一のリフ…
CARは、近縁な生物のゲノムに基づいて、原核生物のゲノムのコンティグを精度よく並べ換えるアセンブリツール。論文中では、様々なリアルデータのコンティグと系統学的に近縁さが異なる20のゲノムを使い、正解と謝りの割合を調べており、競合ツールよりパフォ…
GFinisherはゲノムのアセンブルで得たコンティグを、似たゲノムの情報と他のアセンブルツールのコンティグ情報を使い、contiguityを改善するツール。始めに似たゲノムにコンティグを貼り付け、他のコンティグ情報も使いターゲットのコンティグを並べ替える。…
NGSのリードやアセンブルしたコンティグを使い、スキャッホールドのギャップを埋めるツールがいくつか発表されているが、オーサーらは、これらのツールに起因するアセンブリのエラー率が、デノボアセンブルで起こるエラー率よりも20〜500倍高いことを指摘し…
GapBlasterは、ゲノムのアセンブリで得られたコンティグを用いて、NNNで繋がったスキャフォールドのクローズを支援するjavaのツール。GUIで動作する。アセンブリで得られたコンティグをblast+/legacy blast/mummerの新井面ツールでスキャホールドにアライメ…
Metassemblerは複数のアセンブルツールのcontigをマージし、他のツールの短所を補い合うことで(例えばOLCのアセンブルツールとde brujin graphのアセンブルツール)、より長いcontigを作るツール。アセンブルコンペティションのAssemblathonの1と2のデー…
GAGEのペーパーでも議論されているが、生き物をと言わず常にベストな結果を出すアセンブラと言うのは現状存在しない。アセンブルを改善するため、複数のアセンブル結果をマージしてアセンブル結果を強化するポストアセンブルのツールがいくつか発表されてき…
Scallopは、リファンレンスガイドのトランスクリプトのアセンブルツール。 マルチエキソンの転写物や低発現の転写物を組み立てる際の高い精度を特徴とする。ヒトRNA-seqサンプルでは、ScallopはStringTieおよびTransCombよりも34.5%および36.3%正確なマル…
Projector 2はリファンレンスのゲノムを使い、de novo assemblyで作ったcontigをconcatenateして、さらに隣接したcontigを跨ぐ特異的なプライマーを自動設計して、Finishingを助けるツール。contigの接続の指標となる参照するゲノムはドラフトでも使える。リ…
ドライの計算技術およびウエット実験技術を利用して、ドラフトゲノムからゲノムを再構築する様々な方法が存在するが、それらはアセンブリの一部のみを生成する。したがって、異なる方法によって作製されたアセンブリ結果を比較して統合することが重要となる…
2018 8/31 タイトルと紹介文修正 2018 11/5 タイトル修正 2019 1/11 追記 何百というバクテリアゲノムをシーケンスできる時代になったが、それに伴い大量のデータを効率よく分析できる堅牢でスケール変化に対応できる手法が求められている。Pilonは全自動で…
Mixはバクテリア向けに設計された、複数のconitgをマージしてより長いcontigを作る方法論。うまく使えば、細分化されたcontigをからより長いcontigを作ることができる。 インストール 依存 python 2.7 (http://www.python.org/) python-networkx 1.6-2 (http…
AlignGraphは、よく似たゲノム配列を使いcontigを伸ばしたり繋いでくれるツール。よく似たゲノム配列が存在するとき、アセンブリして作ったcontigやscaffoldsをさらに伸ばすために使われたりする。 インストール 依存 Bowtie2 BLAT PBLAT (http://icebert.gi…
ABACASはサンガー研の開発したReference-assisted assemblyなアセンブル法である。2009年に論文が発表された。サンガー研のACTやMummerの機能と連携しており、ランと結果の分析にはこの2つがインストールされている必要がある。その他の特徴として、primer3…
RACA Reference-assisted assembly を行うツール。解析にはリファレンスとアウトグループが必要である。 論文では、RACAを使いGAGEのゴールデンデータセットをアセンブルしたデータや、Tibetan antelope(ウシ科のチルー)のアセンブルデータが使われている…
small genomeとlarge genomeいずれにも使えるツール。2014年に発表された(ref.1)。複数の近縁ゲノムを使うことで、アセンブル精度を高めたとされる。公式ページには、現在レビュアー審査中の論文では哺乳類のクロモソームを再構成できると記載されている(…