macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

simulator

SVシミュレーションツール SURVIVOR

一塩基多型(SNP)、小さな挿入 - 欠失事象(indels)、トランスポゾン挿入および大きな構造変化(SV)を含む、様々な遺伝的変化が生物種に影響し得る。欠失、重複、挿入、逆位および転座を含むSVは、タイピングするのが最も困難であり、結果として最もよく…

CNVのシミュレータ CNV-Sim

CNV-SimはCopy numver variationのシミュレータ。ランダム、または提供されたリストに従って、リードの増幅および欠失が起きる。このツールは2種類のシミュレーション機能を持つ。1つは全ゲノムにおけるCNVシミュレーションで、 CNV-Simは、ARTの機能を利用…

Structural variationsのシミュレーター SVGen

SVGen Documentより 構造変異(SV)用の既存のシミュレーションツールは、一部はSNV(single-nucleotide variants)をシミュレートせず、またシミュレートされたシーケンスリードを生成してSVコーラーソフトウェアをベンチマークする外部プログラムが必要と…

somaticやmixed tumorのSNPsやSVをシミュレートする Pysim-sv

構造変化(SV)はドナーゲノムの構造変化をもたらすゲノム変異である。Indels、コピー数変動(CNV)およびゲノム再編成はすべてSVのサブクラスである。多くの研究は、SVが正常なヒト集団[論文より ref.1,2]ならびに癌ゲノム[ref.3-5]において広く広がってい…

生殖細胞系列と体細胞の変異を検出する SNVSniffer

次世代シークエンシング(NGS)に基づいて、単一ヌクレオチド変異(SNV)または挿入 - または欠失(indel)突然変異を呼び出すための様々なアプローチが開発されている。しかし、それらの大部分は、特定のタイプの突然変異に捧げられている。正常細胞におけ…

RNA seqのシミュレータ polyester

RNA-seq実験は遺伝子発現を研究する手段としてますます普及が進んでいる。RNA-seqデータ(Oshlack et al、2010)の発現解析のための様々な統計的手法がある。 RNA-seqの統計的方法論の開発者は、ツールが正しく機能しているかどうかをテストする必要がある。…

PacBioのロングリードのシミュレータ SimLoRD

SMRT(single molecule real time)シーケンシングのような第3世代シークエンシング技術は、第2世代の方法よりもかなり長いリードを出力可能なため、ますます使用されててきている。 SMRTのエラー特性は従来の技術と根本的に異なる。基本エラー率はより高い…

ナノポアのONTリードのシミュレーター NanoSim-H

NanoSim-Hは NanoSim(紹介)のforkとして開発されたONTリードのシミュレータ。以下の改善点がある。 Support for Python 3 Support for RNF read names Installation from PyPI Error profiles distributed with the main package Automatic testing using …

ロングリードのシミュレーター LongISLND

これまでシミュレーションは現実的でありながら多用途なロングリードシミュレータの欠如によって妨げられてきた。例えば、PBSIM(Ono et al、2012)は、マルチパスメカニズムまたは追加の塩基ごとの確率および下流分析ツールによって必要とされる速度論的デ…

簡易なメタゲノムもシミュレートできるfastqのシミュレータ GemSIM

GemSIMは汎用フォーマットのSAMおよびFASTQ(IlluminaおよびRoche454を含む)と互換性のあるシングルエンドまたはペアエンドのリードを生成できるNGSのシミュレータ。ユーザーが比率を指定することで、簡単なメタゲノムのシミュレートを行うこともできる。 P…

Linked readsのシミュレーターLRSIM

Linked readsは、長鎖の単分子DNAをエマルジョンの中に閉じ込めて断片化し、固有のバーコード配列を付加することで、一定の領域内に同じタグ付きのリードを調整する手法。100万くらいの多様なバーコードを持ったライブラリをiiluminaでシーケンスして、バー…

RNAseqのロングリードのアライメントの評価ツール RNAseqEval

ロングリードを使ったRNA seqはまだ情報が少ない。Evaluation of tools for long read RNA-seq splice-aware alignment.というタイトルのこの論文では、PacBioとONT Minionを使い、エラーの多いロングリードがアライナーの種類によってどう扱われれるのか、…

fastq のシミュレーター XS (リファンレスなし)

XSはIon Torrent、Roche-454、Illumina、SOLiDに対応したショートリードのシミュレータ。軽量で依存がないように設計されている。クラウドに向けて時間とメモリに応じていくつかの実行モードを備えている。リファンレスは使わない。塩基はランダム発生され、…

GCbiasを考慮したイルミナのシミュレーター ArtificialFastqGenerator

ArtificialFastqGeneratorはカバレッジGCバイアスを考慮可能なNGSリードのシミュレーター。イルミナのペアードエンドfastqに対応している。 比較表 Biostars https://www.biostars.org/p/124126/ ダウンロード javaの実行ファイルがダウンロードできる。 htt…

並列化で高速に動作するシミュレーター SlnC

SlnCは最も多い変異であるSNV、indel、CNVをシミュレートできるNGSのリードシミュレーションツール。マルチコアに対応しており、ARTのようなツールと比較して高速にカバレッジのディープなデータセットを発生させることができる。 ダウンロード 依存 GSL (ht…

シュードゲノムのシミューレーター Simulome

Simulomeは2017年に発表されたbacteria向けの遺伝子のシミュレートツールである。gene情報を与えることで、標準では一部の遺伝子に限定してシミュレートする。具体的には、遺伝子の長さの分布を調べ、その平均と標準偏差から遺伝子のサンプリングをお行い、…

bamに塩基置換やindel変異を起こすbamsurgeon

bamsurgeonはガンの原因となる体細胞突然変異をシミュレートするために構築されたbamに対する変異導入ツール。ユーザーが用意したリストを元にして、bamに不完全な変異や構造変化を引き起こす大きな変異を導入することができる。2015年にnature methodsに発…

リファレンスを変えて、変異株のゲノム配列を作る。

変異のコール結果であるVCFファイルを元に変異株のゲノムを作りたいことが時々ある。そうゆう時は、gatkのFastaAlternateReferenceMakerが利用できる。 マニュアル gatkがない人はbrewで導入しておく。 brew install gatk ラン 入力は変異コール結果のVCFフ…

BBMapでメタゲノムの簡単なシミュレートを行う

メタゲノムをシミュレートするには、ゲノムごとのインサートサイズや増幅biasなどを考慮する必要があり、厳密に行うと計算が複雑になる。また計算リソースも高度に要求される。そのためGPUを使ったシミュレーションツールなども登場している。それに加えて、…

ユーザー定義の変異を再現可能なfastqのシミュレーター NEAT-genReads

NEAT-genReadsは2016年に発表されたfastqをシミュレートできるツール。変異のVCFファイルなどの情報も与えて現実に近いfastqを発生させることができる。fastq以外にポジコンとして使えるbamやVCFファイルも生成されるため、indel検出ツールの妥当性をポジコ…

ナノポアのONTリードのシミュレーター NanoSim

NanoSImは2017年に発表されたOxford nanoporeのロングリードのシミュレーター。ユーザーが指定したONTリードからプロファイルを作成し、それに基づいてロングリードを発生させることができる。 インストール 依存 minimap2 (Tested with version 2.10) LAST …

SNVやindel変異を再現できるfastqのシミュレーターwgsim

wgsimはfastqをシミュレートできるツールである。Wgsimは、SNPと挿入/欠失多型と二倍体ゲノムをシミュレートできる(シーケンスエラーを再現したり、diploidゲノムの多型を想定して、一定の確率で変異を入れることができる)。もともとSAMtoolsのパッケージ…

contigからscaffoldを作るツールの検証

アセンブルして作ったcontigをペアリード情報やロングリード情報を使って統合し、Scaffoldを作るツールがいくつか発表されている。代表的なものをインストールしてテストした。 ツールのインストール テストには2種のバクテリア、Nostoc pcc 7120(Taxonomy …

Pacbioロングリードのシミュレーター

PBSIMはPacbioリードのシミュレーションを行うツールである。ユーザーの持っているPacbioデータをもとにリードの長さやクオリティをシミュレートすることもできるため、実際の解析に適用しやすい。 インストール GitHub - pfaucon/PBSIM-PacBio-Simulator: T…

fastq配列のシミュレーター ART

NGSのリードをシミュレートする手法はいくつかあるが、今回はMiseqのリードなどもシミュレートできるARTを紹介する。 https://www.niehs.nih.gov/research/resources/software/biostatistics/art/ ARTはIllumina's Solexa, Roche's 454 and Applied Biosyste…