macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

indel検出

EMBOSSのmsbarでリファレンス配列に点変異やSVを導入する

EMBOSSパッケージのmsbarを使うと、リファレンスに変異を導入することができる。変異のシミュレーション実験などに使える機能である。 公式サイト http://emboss.sourceforge.net EMBOSS: msbar インストール embossはbrewで導入できる。 brew install embos…

whamでSVを検出する。

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論…

構造変化も含めてバリアントを検出し、アセンブルしたFASTAを出力するPilon

何百というバクテリアゲノムをシーケンスできる時代になったが、それに伴い大量のデータを効率よく分析できる堅牢でスケール変化に対応できる手法が求められている。Pilonは全自動で動作するバクテリア向けのリファレンスベースのアセンブルツールである。dr…

bamに塩基置換やindel変異を起こすbamsurgeon

bamsurgeonはガンの原因となる体細胞突然変異をシミュレートするために構築されたbamに対する変異導入ツール。ユーザーが用意したリストを元にして、bamに不完全な変異や構造変化を引き起こす大きな変異を導入することができる。2015年にnature methodsに発…

VCFtoolsでVCFを管理、編集する

VCFtoolsは、バリアントコールフォーマットのVCFファイルのマージ、ソートやフィルタリング、固有変異の抽出などができるツール。 よく使いそうなコマンドに限って紹介する。 マニュアル https://vcftools.github.io/perl_module.html インストール git clon…

リファレンスを変えて、変異株のゲノム配列を作る。

変異のコール結果であるVCFファイルを元に変異株のゲノムを作りたいことが時々ある。そうゆう時は、gatkのFastaAlternateReferenceMakerが利用できる。 マニュアル gatkがない人はbrewで導入しておく。 brew install gatk ラン 入力は変異コール結果のVCFフ…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

変異のフィルタリングを行うSnpSift

以前SnpEffという変異のアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftは変異コール結果のVCFファイルを扱うツールで、クオリティやp値など様々な指標に基づいて変異を…

ユーザー定義の変異を再現可能なfastqのシミュレーター NEAT-genReads

NEAT-genReadsは2016年に発表されたfastqをシミュレートできるツール。変異のVCFファイルなどの情報も与えて現実に近いfastqを発生させることができる。fastq以外にポジコンとして使えるbamやVCFファイルも生成されるため、indel検出ツールの妥当性をポジコ…

SNVやindel変異を再現できるfastqのシミュレーターwgsim

wgsimはfastqをシミュレートできるツールである。シーケンスエラーを再現したり、diploidゲノムの多型を想定して、一定の確率で変異を入れることができる(indelシーケンスエラーは再現されない)。 wgsimはARTなどのツールでは不可能な300bp以上の配列を発…

サンプル間で共通する変異と固有の変異を抽出する

以前ショートリードからindelとSNVを検出するワークフローを紹介した。 複数サンプルがある場合、上記のような方法でVCFファイルを出力した後、サンプル間で共通のSNPs、サンプルごとに固有のSNPsなどを絞り込む必要が出てくるシチュエーションは多いと思わ…

small indelとSNV検出のワークフロー 準備編

この投稿はSNVとindel検出に必要なツールの準備編です。 実際の検出のワークフローは以下のエントリーを確認してください。 --準備するもの-- 解析に必要なソフト GATK BWA Picard Samtools Bedtools SnpEff R (解析の途中で読み込まれ画像ファイルなどを出…

GATKでの変異のフィルタリング条件の分析

前回、ニューヨーク大のindel検出のワークフローを紹介したが、その中で Haplotypercallerの検出結果のフィルタリングを以下のような条件で行なった。 java -jar GenomeAnalysisTK.jar -T VariantFiltration -R ref.fa -V raw_snps.vcf --filterExpression '…

small indelとSNV検出のワークフロー

SNVやsmall indel検出については精度の高いワークフローがすでに確立されている。例えば下記のニューヨーク大のHP https://gencore.bio.nyu.edu/variant-calling-pipeline/ には、SNVとsmall indel検出ワークフローが記載されている。流れを説明すると bam作…

変異はどんな遺伝子に起きているのか? SnpEffを使ってindel検出結果のアノテーションを行う

多くのindel検出ツールは変異のポジションしか出力しないため、その変異がどのようなアミノ酸変化を引き起こすか、サイレントなのかは別途調べる必要がある。ただし手動でやるのはしんどいし、間違いの元になる。snpEffはこうした作業をサポートするプログラ…

Indel検出ツールまとめ

250bp x 2のペアリードでテストした時の結果をツールごとにまとめた。 インストール編はこちら Pindel Ye et al. (2009) split-read approaches. splitリード法はいくつか報告されているが、その中でおそらく最もよく知られたツール。原理はインストール編に…