macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

large indel検出

samblasterでduplicationリードにタグをつける

samblasterは、samファイルのduplicationのリードにタグをつけたり、構造変化の指標となるsplit-alingment readやdiscordant read pairを別ファイルに出力できるツール。samの時点でデータをより分けることで、discordant read pairやsplit-alingment readを…

変異のフィルタリングを行うSnpSift

以前SnpEffという変異のアノテーションを行うことができるツールを紹介した(リンク)。このツールにはもう一つSnpSiftというツールが同梱されている。SnpSiftは変異コール結果のVCFファイルを扱うツールで、クオリティやp値など様々な指標に基づいて変異を…

複数のトランスポゾン検出ツールをまとめてインストールして、ランするスクリプト

Githubで公開されているmcclintockは複数のトランスポゾン検出ツールをまとめて走らせることができるツールである。以下の6つのツールを走らせてくれる。 ngs_te_mapper - Linheiro and Bergman (2012) RelocaTE - Robb et al. (2013) TEMP - Zhuang et al.…

トランスポゾン検出ツール5 RelocaTEとRelocaTE2

RelocaTE RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。 依存するもの Blat Bowtie 1 BioPerl SAMtools BWA Reco…

トランスポゾン検出ツール4 IS_mapper

見つけたいIS配列や抗生物質耐性カセット配列をあらかじめ入力することで、ペアエンド情報を使いISの位置を検出してくれるツール。バクテリア用に設計されており、macbook airなどのlaptopでも高速に動作する。トランスポゾンやマーカー遺伝子でタギングした…

トランスポゾン検出ツール3 Jitterbug

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに…

トランスポゾン検出ツール2 ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にト…

トランスポゾン検出ツール1 MELT

MELTは、iiluminaのペアエンドデータを使いリファレンスに存在しないmobile elementを検出するツール。以前1000 genomeで使われていたが、その後バージョンアップにより様々なゲノムに対応するようになった。SGEの分散コンピュータ環境から、SGEを使わない環…

Tandem duplicationの検出テスト

最後はtandem duplicationのテスト結果についてまとめる。 検証 逆位の場合と同じようにシミュレーションデータを使って検証した(read-pairは除く)。結果だけ箇条書きする。 read-pair法のBreakdancerは100 bp以上のtandem duplicationを全て検出した。 Sp…

Inversionの検出テスト

・検証 リアルデータでは既知の逆位変異がなかったので、シミュレーションデータだけ使って3手法のパフォーマンスを検証した。箇条書きで記す。 read-pair法のBreakdancerは、100 bp以上の逆位を100%検出した。 Split-read法のPindelは10bp -10 kbの逆位を10…

large insertionの検出テスト

欠損に続き挿入も検出できるかテストしたので報告する。 検証 deletionと同じようにシミュレーションとリアルデータ両方を使って、read-pair以外の手法を検証した。論文化がまだなので、結果だけ箇条書きする。 read-pair法のBreakdancerはシミュレーション…

large deletionの検出テスト

以前、構造変化を検出する4つの方法を紹介した。 4つの原理を利用したツールは論文もソースコードも探せば無償で入手できるので、興味があればインストールして自分のデータを解析することも可能である(このブログでも紹介している)。ただしペーパーでは…

ショートリードからの構造変化検出4, Tandem duplication

・検出原理 他にも構造変化の種類はあるが、4回目の今回で最後とする。図はTandem duplicationを 捉える例を示している。 Tandem duplicationは配列の挿入が起きているので、広義では挿入の1種と考えられる。ただし、1つ目の配列の隣に挿入されるため、ペ…

ショートリードからの構造変化検出3, Inversion

欠損、挿入に続き、逆位の構造変化を捉える3つの手法についてまとめる。 ・原理 図は逆位 (Inversion) を捉える例を示している。 ・Aのread-count方法ではInversion変異を検出することはできない。 ・read-pair法 (B) ではリファレンスに異常な向き(--> -->…

ショートリードからの構造変化検出2, large Insertion

ショートリードを使った4つの手法による挿入の検出原理を簡潔に説明する。 ・検出原理 次の図は挿入変異を4つの手法で捉える例を示している。 Aのresd-count方法ではリードの増減がないので、挿入変異を検出することはできない。 read-pair法 (B) ではリフ…

ショートリードからの構造変化検出1, large deletion

ショートリードから大きなindelを検出する手法は、大きく4つに分けられる。手法の詳細は論文にまとめられている。 Genome structural variation discovery and genotyping http://www.nature.com/nrg/journal/v12/n5/full/nrg2958.html Detection of genomic…

Indel検出ツールまとめ

250bp x 2のペアリードでテストした時の結果をツールごとにまとめた。 インストール編はこちら Pindel Ye et al. (2009) split-read approaches. splitリード法はいくつか報告されているが、その中でおそらく最もよく知られたツール。原理はインストール編に…

large indelの検出ツール

バクテリアゲノムを使い、構造変化検出ツールのパフォーマンスを比較したペーパーが出ている。 The challenge of detecting indels in bacterial genomes from short-read sequencing data 実際に導入して、パフォーマンスを比較してみる。 はじめにbrew tap…

InDel_Hunterのマッピングソフト検討

ARTで250bpでカバレッジ100のシングルfastqを生成。マッピングソフトによるカバレッジの差を調べる。 まずはfastqのジェネレート。 art_illumina -ss MSv3 -sam -i input.fasta -p -l 250 -f 100 -s 10 -o single-read マッピングソフトデフォルト条件での平…