macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

large indel検出

トランスポゾン検出ツール6 Tangram

Tangramはトランスポゾンの検出に特化した構造変化検出ツール。SV検出で用いられるread-pairとsplit-readのアルゴリズムを使い高感度にトランスポゾンを検出する。1000ゲノムでもmobile element検出ツールとして用いられた。トランスポゾン検出ツールは様々…

EMBOSSのmsbarでリファレンス配列に点変異やSVを導入する

EMBOSSパッケージのmsbarを使うと、リファレンスに変異を導入することができる。変異のシミュレーション実験などに使える機能である。 公式サイト http://emboss.sourceforge.net EMBOSS: msbar インストール embossはbrewで導入できる。 brew install embos…

whamでSVを検出する。

whamはsplit-read情報、soft-clipping情報、コンセンサス配列情報などを統合してSVを検出するSV検出の方法論。サイズの大きなSVも検出することが可能である。ダウンロードできるパッケージにはwhamとwhamgの2つのツールが入っている。2015年に発表された論…

mergeSVcallersでSV検出結果のVCFファイルを統合する

構造変化検出結果はツールによって得手不得手があるため、網羅的にSVを検出するためには、現状複数ツールを並行して走らせるのが理想とされる。そのため、複数のツール結果を統合して弱点を無くすような方法論も出て来たりしている。しかし、ツールによって…

構造変化も含めてバリアントを検出し、アセンブルしたFASTAを出力するPilon

何百というバクテリアゲノムをシーケンスできる時代になったが、それに伴い大量のデータを効率よく分析できる堅牢でスケール変化に対応できる手法が求められている。Pilonは全自動で動作するバクテリア向けのリファレンスベースのアセンブルツールである。dr…

bamに塩基置換やindel変異を起こすbamsurgeon

bamsurgeonはガンの原因となる体細胞突然変異をシミュレートするために構築されたbamに対する変異導入ツール。ユーザーが用意したリストを元にして、bamに不完全な変異や構造変化を引き起こす大きな変異を導入することができる。2015年にnature methodsに発…

de novoアセンブルしてバリアントをコールするDISCOVAR

DISCOVARは2014年にNature geneticsに載ったバリアントを検出する方法論。シーケンスデータをアセンブルして、バリアントをコールする。ヒトゲノムの構造変化は90%ほどは既存のツールで検出可能だが、残りの構造変化(low-complexity sequenceやsegmental du…

samblasterでduplicationリードにタグをつける

samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、discordant read pairやsplit-alingment readを…

変異のフィルタリングを行うSnpSift

以前SnpEffという変異のアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftは変異コール結果のVCFファイルを扱うツールで、クオリティやp値など様々な指標に基づいて変異を…

複数のトランスポゾン検出ツールをまとめてインストールして、ランするスクリプト

Githubで公開されているmcclintockは複数のトランスポゾン検出ツールをまとめて走らせることができるツールである。以下の6つのツールを走らせてくれる。 ngs_te_mapper - Linheiro and Bergman (2012) RelocaTE - Robb et al. (2013) TEMP - Zhuang et al.…

トランスポゾン検出ツール5 RelocaTEとRelocaTE2

RelocaTE RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。 依存するもの Blat Bowtie 1 BioPerl SAMtools BWA Reco…

トランスポゾン検出ツール4 IS_mapper

見つけたいIS配列や抗生物質耐性カセット配列をあらかじめ入力することで、ペアエンド情報を使いISの位置を検出してくれるツール。バクテリア用に設計されており、macbook airなどのlaptopでも高速に動作する。トランスポゾンやマーカー遺伝子でタギングした…

トランスポゾン検出ツール3 Jitterbug

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに…

トランスポゾン検出ツール2 ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にト…

トランスポゾン検出ツール1 MELT

MELTは、iiluminaのペアエンドデータを使いリファレンスに存在しないmobile elementを検出するツール。以前1000 genomeで使われていたが、その後バージョンアップにより様々なゲノムに対応するようになった。SGEの分散コンピュータ環境から、SGEを使わない環…

Tandem duplicationの検出テスト

最後はtandem duplicationのテスト結果についてまとめる。 検証 逆位の場合と同じようにシミュレーションデータを使って検証した(read-pairは除く)。結果だけ箇条書きする。 read-pair法のBreakdancerは100 bp以上のtandem duplicationを全て検出した。 Sp…

Inversionの検出テスト

・検証 リアルデータでは既知の逆位変異がなかったので、シミュレーションデータだけ使って3手法のパフォーマンスを検証した。箇条書きで記す。 read-pair法のBreakdancerは、100 bp以上の逆位を100%検出した。 Split-read法のPindelは10bp -10 kbの逆位を10…

large insertionの検出テスト

欠損に続き挿入も検出できるかテストしたので報告する。 検証 deletionと同じようにシミュレーションとリアルデータ両方を使って、read-pair以外の手法を検証した。論文化がまだなので、結果だけ箇条書きする。 read-pair法のBreakdancerはシミュレーション…

large deletionの検出テスト

以前、構造変化を検出する4つの方法を紹介した。 4つの原理を利用したツールは論文もソースコードも探せば無償で入手できるので、興味があればインストールして自分のデータを解析することも可能である(このブログでも紹介している)。ただしペーパーでは…

ショートリードからの構造変化検出4, Tandem duplication

・検出原理 他にも構造変化の種類はあるが、4回目の今回で最後とする。図はTandem duplicationを 捉える例を示している。 Tandem duplicationは配列の挿入が起きているので、広義では挿入の1種と考えられる。ただし、1つ目の配列の隣に挿入されるため、ペ…

ショートリードからの構造変化検出3, Inversion

欠損、挿入に続き、逆位の構造変化を捉える3つの手法についてまとめる。 ・原理 図は逆位 (Inversion) を捉える例を示している。 ・Aのread-count方法ではInversion変異を検出することはできない。 ・read-pair法 (B) ではリファレンスに異常な向き(--> -->…

ショートリードからの構造変化検出2, large Insertion

ショートリードを使った4つの手法による挿入の検出原理を簡潔に説明する。 ・検出原理 次の図は挿入変異を4つの手法で捉える例を示している。 Aのresd-count方法ではリードの増減がないので、挿入変異を検出することはできない。 read-pair法 (B) ではリフ…

ショートリードからの構造変化検出1, large deletion

ショートリードから大きなindelを検出する手法は、大きく4つに分けられる。手法の詳細は論文にまとめられている。 Genome structural variation discovery and genotyping http://www.nature.com/nrg/journal/v12/n5/full/nrg2958.html Detection of genomic…

Indel検出ツールまとめ

250bp x 2のペアリードでテストした時の結果をツールごとにまとめた。 インストール編はこちら Pindel Ye et al. (2009) split-read approaches. splitリード法はいくつか報告されているが、その中でおそらく最もよく知られたツール。原理はインストール編に…

large indelの検出ツール

バクテリアゲノムを使い、構造変化検出ツールのパフォーマンスを比較したペーパーが出ている。 The challenge of detecting indels in bacterial genomes from short-read sequencing data 実際に導入して、パフォーマンスを比較してみる。 10/18追記 Pindel…

InDel_Hunterのマッピングソフト検討

ARTで250bpでカバレッジ100のシングルfastqを生成。マッピングソフトによるカバレッジの差を調べる。 まずはfastqのジェネレート。 art_illumina -ss MSv3 -sam -i input.fasta -p -l 250 -f 100 -s 10 -o single-read マッピングソフトデフォルト条件での平…