macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

small indel

コード領域のリアライメントによってバリアントコールを改善する ABRA

2019 5/23 ABRA2追記 indel検出を制限するアラインメントエラーおよびリファレンスバイアスを克服するために、多数のリアライメントおよびアセンブリ方法が提案されている。ショートリードのマイクロアライナーは、局所的に組み立てられたバリアントグラフへ…

k-merを使いアライメントフリーでバリアントをコールする kestrel

アライメントツールはエラーやバラツキを処理するように設計されているが、リファレンスとは大幅に異なるシーケンスリードを確実に正しい場所に割り当てることはできない。アラインメントの信頼性が低いと、バリアントコールの信頼性が低くなり、真のバリア…

バリアントのコールと可視化のパイプライン MutScan

次世代シーケンシング(NGS)は何千もの突然変異を検出することができる。しかし、一部のアプリケーションでは、これらのうちのほんのわずかなものが対象のターゲットである。 NGS技術によるがんの個人化された医療検査のようなアプリケーションでは、臨床医…

somaticやmixed tumorのSNPsやSVをシミュレートする Pysim-sv

構造変化(SV)はドナーゲノムの構造変化をもたらすゲノム変異である。Indels、コピー数変動(CNV)およびゲノム再編成はすべてSVのサブクラスである。多くの研究は、SVが正常なヒト集団[論文より ref.1,2]ならびに癌ゲノム[ref.3-5]において広く広がってい…

ヒトゲノムの統合変異検出パイプライン speedseq

2018 8/7 ホストからジョブを投げるようにコマンド修正 2018 8/8 realignコマンド修正 2020 4/15 コマンド記載ミス修正 第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと時間が削減され、これまで…

並列化に対応した高速な変異検出ツール GROM

1000ゲノムプロジェクト(論文より ref.1)は、1000ゲノムの全ゲノムシーケンシング(WGS)の作成と解析を目的として、2008年に開始された。コスト削減とシーケンシングのスループットが向上することで、Human Longevity Inc.(CEOはクレイグベンダー)の公…

生物学的に同等な可能性があるindelのフィルタリングを行う UPS-indel

Indelは、DNA配列中の塩基の挿入または欠失を意味する。2番目に主要な変異であるindelsはゲノムおよびタンパク質の進化において重要な役割を果たす。シーケンシングエラー、リードのあいまいなアライメント、異なるツールによる同じバリアントの一貫性のな…

アンプリコンシーケンスのindelを検出する Amplicon Indel Hunter

次世代シークエンシング(NGS)技術の性能とコストにより、臨床検査機関への採用を推進し続けており、これによって従来の多くの分子遺伝学的解析システムの書き換えが急速に進んでいる。これは腫瘍診断領域において特に当てはまり、low mutant allelic frequ…

ソフトクリップされたリードから複雑な欠失を検出する Sprites

もともと、構造変異(SV)は大きさが1k bpを超える挿入、欠失および逆位として定義されていた(Feuk et al、2006)、現在はずっと小さな変異(例えば50 bp以上の長さ) et al、2011)、転座やタンデムの複製など、より多くのタイプのバリアントが含まれる(S…

VCFのユーティリティツール VCF-kit

2019 7/29 condaインストール追記 集団および量的遺伝学は、集団内の個体がどのように異なるかを調べる。これらの違いを特定することにより、様々な分析を行うことができる。例えば、遺伝子変異は、表現型の基礎を特定し、進化論的な質問に答えるために、ま…

アセンブル結果をリファレンスと比較して構造変異などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

germlineとsomaticのSNVとsmall indelを検出する Strelka2

2019 5/30 インストール追記 Strelkaは、マッピングされたbamから生殖細胞系列および体細胞系列の変異を検出する。体細胞突然変異の検出では、約5-10%の腫瘍の純度まで良好な結果を出せるとされる。 デフォルトでは49以下のサイズのindelも検出する。入力サ…

アライメントフリーでk-merデータベースから高速にバリアントを検出する FastGT

ゲノム変異の研究には、次世代シーケンシング(NGS)技術が広く使用されている。ヒトゲノムの変異は、通常、配列決定されたリードをマッピングし、次いでgenotypeのコールを行うことによって検出される(論文より ref.1-4)。標準的なパイプラインでは、rawシ…

複数ゲノムを比較してリファレンスがないデータから変異を検出する NIKS

NIKSはリファンレンスが利用できないようなサンプルについて、NGSデータを直接比較して変異を検出する方法論。k-merの分析から、サンプル特異的な配列を検出している。 本手法によって、リファレンスゲノムがない非モデル植物のホモの変異も検出することが可…

SNVをコールしたり、全ゲノムのマルチプルアライメントを行う Snippy

Snippyはバクテリアのゲノムのマルチプルアライメントを行なって、SNV、indelをコールするツール。バリアントに基づいた系統解析を行う時などに使うことができる。 公式ページ http://www.vicbioinformatics.com/software.snippy.shtml マニュアル(README.m…

リファレンス配列に点変異やSVを導入するEMBOSSのmsbar

2019 7/16 タイトル修正 EMBOSSパッケージのmsbarを使うと、リファレンスに変異を導入することができる。変異のシミュレーション実験などに使える機能である。 公式サイト http://emboss.sourceforge.net EMBOSS: msbar インストール embossはbrewで導入でき…

SVを検出する wham

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論…

アセンブリのエラーやギャップ(NNN)を検出し、ポリッシュしたFASTAを出力するPilon

2018 8/31 タイトルと紹介文修正 2018 11/5 タイトル修正 2019 1/11 追記 2019 3/3ラストにnanopore long read追記 2019 4/12 ラストにpacbio long read追記 2019 6/12 リンク追記 2019 6/27 merged.fq追記 2019 7/15 追記 2019 9/29 追記 2019 10/28インス…

bamに塩基置換やindel変異を起こすbamsurgeon

bamsurgeonはガンの原因となる体細胞突然変異をシミュレートするために構築されたbamに対する変異導入ツール。ユーザーが用意したリストを元にして、bamに不完全な変異や構造変化を引き起こす大きな変異を導入することができる。2015年にnature methodsに発…

VCFを管理、編集する VCFtools

2019 4/16 condaインストール 2019 12/9ビルド手順の誤り修正 2020 1/5 mergeの説明追加 2020 4/18 基本コマンド追記 2020 10/13 追記 20200 10/14 分かりにくい説明を修正 VCFtoolsは、バリアントコールフォーマットのVCFファイルのマージ、ソートやフィル…

リファレンスを変えて、変異株のゲノム配列を作る。

2019 8/3 リンク追加 変異のコール結果であるVCFファイルを元に変異株のゲノムを作りたいことが時々ある。そうゆう時は、gatkのFastaAlternateReferenceMakerが利用できる。 マニュアル gatkがない人はbrewで導入しておく。 brew install gatk 実行方法 入力…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

変異のフィルタリングを行うSnpSift

以前SnpEffという変異のアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftは変異コール結果のVCFファイルを扱うツールで、クオリティやp値など様々な指標に基づいて変異を…

ユーザー定義の変異を再現可能なfastqのシミュレーター NEAT-genReads

2017 8/29追記 2019 4/16 誤字修正 ゲノム解析の検証方法やベンチマーク方法の障害は、サンプルゲノムの突然変異の状況についての「根拠のある真実」がわかっていて完全に検証されている参照データセットがほとんどないことである。さらに、本物のヒトゲノム…

SNVやindel変異を再現できるfastqのシミュレーターwgsim

#標準出力修正 wgsimはfastqをシミュレートできるツールである。Wgsimは、SNPと挿入/欠失多型と二倍体ゲノムをシミュレートできる(シーケンスエラーを再現したり、diploidゲノムの多型を想定して、一定の確率で変異を入れることができる)。もともとSAMtool…

サンプル間で共通する変異と固有の変異を抽出する

2019 11/19 コマンドエラー修正(A、Bの比較なのにCの表記がある) 2020 10/20 インストール追記 以前ショートリードからindelとSNVを検出するワークフローを紹介した。 複数サンプルがある場合、上記のような方法でVCFファイルを出力した後、サンプル間で共…

small indelとSNV検出のワークフロー 準備編

2020 9/2 追記 インストール追記 2020 9/4 コメントいただいた部分を修正 この投稿はSNVとindel検出に必要なツールの準備編です。 実際の検出のワークフローは以下のエントリーを確認してください。 --準備するもの-- 解析に必要なソフト GATK BWA Picard Sa…

GATKでの変異のフィルタリング条件の分析

以前ニューヨーク大のindel検出のワークフローを紹介したが、その中で Haplotypercallerの検出結果のフィルタリングを以下のような条件で行なった。 java -jar GenomeAnalysisTK.jar -T VariantFiltration -R ref.fa -V raw_snps.vcf --filterExpression 'QD …

small indelとSNV検出のワークフロー

随時更新 2019 11/24 condaインストール追記(v3.8) 2020 5/13 インストール追記 SNVやsmall indel検出については精度の高いワークフローがすでに確立されている。例えば下記のニューヨーク大のHP https://gencore.bio.nyu.edu/variant-calling-pipeline/ …

変異はどんな遺伝子に起きているのか? SnpEffを使ってindel検出結果のアノテーションを行う

2017 8/24追記 2019 4/24 インストール追記 2020 10/14 リンク追加 多くのindel検出ツールは変異のポジションしか出力しないため、その変異がどのようなアミノ酸変化を引き起こすか、サイレントなのかは別途調べる必要がある。ただし手動でやるのはしんどい…