macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

small indel

VCFの要約統計を出力するRTG toolsの rtg vcfstatsコマンド

2019 8/3 コマンドのミス修正 RTG toolsはRTGコアのサブセットである。VCFファイルの高度な比較を実行するvcfevalなど、VCFファイルとシーケンスデータを扱うための便利なユーティリティが含まれている。vcfevalが特に重要なコマンドだが、ここではvcfの簡単…

アラインメントのPAFファイルを扱うユーティリティ paftools

Minimap2には、PAFフォーマットのアライメントを処理する(java)スクリプトpaftools.jsが付属している。paftoolsを使うことで、 アセンブリをリファレンスゲノムにアラインメントしてバリアントをコールしたり、PAF/SAMからBEDなどのフォーマットに変換した…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

(ヒト向け)超高感度なマルチサンプルバリアントコーラー Needlestack

大規模並列シーケンシング、または次世代シーケンシング(NGS)は、従来のSangerシーケンシングと比較してスループットの大幅な増加と低存在量のバリエーションを検出するこれまでにない能力により、遺伝的バリエーションの探索方法に革命をもたらした。シー…

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

次世代シーケンス(NGS)データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

haploidスモールゲノムバリアントコーラー; breseqの出力からコントロールの変異を除く breseq-rm-ctrl

タイトルの通りの機能を持つコマンド。コントロール株でもコールされた変異を除くために使う。breseq出力のhtmlファイルを入力に使う。出力もhtmlファイルになる。 Breseq本体 http://barricklab.org/twiki/bin/view/Lab/ToolsBacterialGenomeResequencing …

変異の自動解析パイプライン NASP

バクテリア、ウイルス、真菌および寄生生物を含む微生物からの全ゲノムシーケンシング(WGS)データはpublicデータベースで急速に増加しており、アウトブレイク調査(Rasko et a、2011; Eppinger et al、2011; Engelthaler et al、2016)、系統学と血清学を…

BatAlign

シーケンシングリードのリファレンスゲノムへのアライメントは、通常、ほとんどのゲノム解析の第一歩で歩い。しかし、全リードがリファレンスゲノムを正確に表していないため、シーケンシングリードをゲノム変異をまたいでリファレンスゲノムに戻すことは難…

既知変異情報を利用して精度を上げたバリアントコールを行う IVC

ゲノムのバリアント検出は、ゲノミクス、バイオインフォマティクス、生物医学研究およびその応用(1000 Genomes Project Consortium、2012,2015; Pabinger et al、2014)において非常に重要な意味を持つ。次世代シークエンシング(NGS)技術の最近の進歩によ…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

Varscan2 の解析の流れ

修正 不確かな情報を削除 2019 2/17 誤字修正 Using VarScan 2 for Germline Variant Calling and Somatic Mutation Detection(Daniel C. Koboldt et al., 2013)より シングルヌクレオチド変異(SNV)および小さな挿入/欠失(indels)のようなバリアントの…

バクテリアのsub-populationsのレアバリアント検出ツール VarCap

8/20 sambambaコマンドミス修正、varscan2バグに対応する迂回コマンド追加 1つの原核生物種のheterogeneityな集団の遺伝子型決定(genotyping)は、一般的な選択圧下での集団(populations)組成および動態に関する微生物学的問題に対処するためにますます重…

circulating cell free DNAから超高感度な変異検出を行う SiNVICT

精密腫瘍学(precision oncology)の最も有望な分野の1つは、患者に合わせたカスタムターゲット療法の開発である。このような療法の開発および効率的な適用を成功させるには、患者の腫瘍DNAの治療誘発性変化の効率的かつ安価な同定手段とモニタリング方法を…

バリアントをランク付けする Variant Ranker

変異を特定することは、病気の病因を理解する上で重要である。ハイスループットな次世代ゲノム技術の進歩により、ゲノムシーケンシング、エクソンシークエンシング、RNA-SeqおよびChIP-Seqは、複雑なメンデル症の感受性遺伝子座を同定するための標準となって…

ミドルサイズのindelを検出する IMSindel

挿入および欠失(indel)は、フレームシフトの導入による遺伝子機能の根本的な変更を介してたくさんのヒト疾患に関与している。しかし、次世代シークエンシングデータからのこれらのindelを正確に検出する事は現在でもチャレンジングである。これは、DNAシー…

somaticとgermlineのバリアント検出ツール Scalpel

注: docker イメージのリンクも紹介してますが、テストするとエラーを吐きました。condaを使いlinuxマシンでに導入するのが無難なようです。 SNVsの分析はヒト遺伝学を研究するための標準的な技術となっているが[論文より ref.1]。、DNA配列(indels)の挿入…

アンプリコンシーケンスのバリアントコーラー UNDR ROVER

超並列シーケンシング(MPS)[論文より ref.1]のためにHi-Plex(www.hiplex.org)と呼ばれる高度に多重化されたPCRベースのターゲット濃縮システムを開発した。 Hi-Plexは、非常に正確な結果を得ることができるシンプルで低コストのプロトコルである。その主…

BAMを感心対象のみにフィルタリングする VariantBam

ゲノムシーケンスのコストが減少するにつれて、大規模なシーケンスデータセットを取り扱う際のストレージおよび計算上の負担が増大する懸念がある。ヒトゲノムの全ゲノムシーケンシングを30倍のカバレッジにすると、およそ10億リードのシーケンスが可能にな…

コード領域のリアライメントによってバリアントコールを改善する ABRA

2019 5/23 ABRA2追記 indel検出を制限するアラインメントエラーおよびリファレンスバイアスを克服するために、多数のリアライメントおよびアセンブリ方法が提案されている。ショートリードのマイクロアライナーは、局所的に組み立てられたバリアントグラフへ…

k-merを使いアライメントフリーでバリアントをコールする kestrel

アライメントツールはエラーやバラツキを処理するように設計されているが、リファレンスとは大幅に異なるシーケンスリードを確実に正しい場所に割り当てることはできない。アラインメントの信頼性が低いと、バリアントコールの信頼性が低くなり、真のバリア…

バリアントのコールと可視化のパイプライン MutScan

次世代シーケンシング(NGS)は何千もの突然変異を検出することができる。しかし、一部のアプリケーションでは、これらのうちのほんのわずかなものが対象のターゲットである。 NGS技術によるがんの個人化された医療検査のようなアプリケーションでは、臨床医…

somaticやmixed tumorのSNPsやSVをシミュレートする Pysim-sv

構造変化(SV)はドナーゲノムの構造変化をもたらすゲノム変異である。Indels、コピー数変動(CNV)およびゲノム再編成はすべてSVのサブクラスである。多くの研究は、SVが正常なヒト集団[論文より ref.1,2]ならびに癌ゲノム[ref.3-5]において広く広がってい…

ヒトゲノムの統合変異検出パイプライン speedseq

8/7 ホストからジョブを投げるようにコマンド修正 8/8 realignコマンド修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと時間が削減され、これまでにない深さと範囲でヒトゲノムを調査するこ…

並列化に対応した高速な変異検出ツール GROM

1000ゲノムプロジェクト(論文より ref.1)は、1000ゲノムの全ゲノムシーケンシング(WGS)の作成と解析を目的として、2008年に開始された。コスト削減とシーケンシングのスループットが向上することで、Human Longevity Inc.(CEOはクレイグベンダー)の公…

生物学的に同等な可能性があるindelのフィルタリングを行う UPS-indel

Indelは、DNA配列中の塩基の挿入または欠失を意味する。2番目に主要な変異であるindelsはゲノムおよびタンパク質の進化において重要な役割を果たす。シーケンシングエラー、リードのあいまいなアライメント、異なるツールによる同じバリアントの一貫性のな…

アンプリコンシーケンスのindelを検出する Amplicon Indel Hunter

次世代シークエンシング(NGS)技術の性能とコストにより、臨床検査機関への採用を推進し続けており、これによって従来の多くの分子遺伝学的解析システムの書き換えが急速に進んでいる。これは腫瘍診断領域において特に当てはまり、low mutant allelic frequ…

ソフトクリップされたリードから複雑な欠失を検出する Sprites

もともと、構造変異(SV)は大きさが1k bpを超える挿入、欠失および逆位として定義されていた(Feuk et al、2006)、現在はずっと小さな変異(例えば50 bp以上の長さ) et al、2011)、転座やタンデムの複製など、より多くのタイプのバリアントが含まれる(S…

VCFのユーティリティツール VCF-kit

2019 7/29 condaインストール追記 集団および量的遺伝学は、集団内の個体がどのように異なるかを調べる。これらの違いを特定することにより、様々な分析を行うことができる。例えば、遺伝子変異は、表現型の基礎を特定し、進化論的な質問に答えるために、ま…

アセンブル結果をリファレンスと比較して構造変化などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

germlineとsomaticのSNVとsmall indelを検出する Strelka2

2019 5/30 インストール追記 Strelkaは、マッピングされたbamから生殖細胞系列および体細胞系列の変異を検出する。体細胞突然変異の検出では、約5-10%の腫瘍の純度まで良好な結果を出せるとされる。 デフォルトでは49以下のサイズのindelも検出する。入力サ…