macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

structural variations (SV)

複数のトランスポゾン検出ツールをまとめてインストールして、ランするスクリプト

Githubで公開されているmcclintockは複数のトランスポゾン検出ツールをまとめて走らせることができるツールである。以下の6つのツールを走らせてくれる。 ngs_te_mapper - Linheiro and Bergman (2012) RelocaTE - Robb et al. (2013) TEMP - Zhuang et al.…

トランスポゾン検出ツール5 RelocaTEとRelocaTE2

RelocaTE RelocaTEはゲノム中のトランスポゾンを検出する手法。トランスポゾンの配列を入力してランする。 検出するトランスポゾンの配列、ターゲット配列、などがわかっていないと正しく機能しない。 依存するもの Blat Bowtie 1 BioPerl SAMtools BWA Reco…

バクテリアのIS検出ツール IS_mapper

2019 2/19 インストールの流れを修正 2021 8/11 condaインストール追記, help更新 見つけたいIS配列や抗生物質耐性カセット配列をあらかじめ入力することで、ペアエンド情報を使いISの位置を検出してくれるツール。バクテリア用に設計されており、macbook ai…

トランスポゾン検出ツール3 Jitterbug

ショートリードのアライメントデータから、トランスポゾン挿入位置を検出するツール。入力はリファレンスにアライメントしたbamファイルで、トランスポゾン配列を準備してアライメントする必要はない。配列の位置がgff3で入力されていればよい。その代わりに…

トランスポゾン検出ツール2 ngs_te_mapper

ショートリードをリファレンスゲノムにアライメントし、de novoでトランスポゾン挿入部位を検出する。論文ではBLATをアライメントに使っていたが、gitでダウンロードできる現バージョンはbwaでアライメントを行うようになっている。トランスポゾン挿入時にト…

トランスポゾン検出ツール1 MELT

2021 8/20 help追加 MELTは、iiluminaのペアエンドデータを使いリファレンスに存在しないmobile elementを検出するツール。以前1000 genomeで使われていたが、その後バージョンアップにより様々なゲノムに対応するようになった。SGEの分散コンピュータ環境か…

Tandem duplicationの検出テスト

最後はtandem duplicationのテスト結果についてまとめる。 検証 逆位の場合と同じようにシミュレーションデータを使って検証した(read-pairは除く)。結果だけ箇条書きする。 read-pair法のBreakdancerは100 bp以上のtandem duplicationを全て検出した。 Sp…

Inversionの検出テスト

・検証 リアルデータでは既知の逆位変異がなかったので、シミュレーションデータだけ使って3手法のパフォーマンスを検証した。箇条書きで記す。 read-pair法のBreakdancerは、100 bp以上の逆位を100%検出した。 Split-read法のPindelは10bp -10 kbの逆位を10…

large insertionの検出テスト

欠損に続き挿入も検出できるかテストしたので報告する。 検証 deletionと同じようにシミュレーションとリアルデータ両方を使って、read-pair以外の手法を検証した。論文化がまだなので、結果だけ箇条書きする。 read-pair法のBreakdancerはシミュレーション…

large deletionの検出テスト

以前、構造変化を検出する4つの方法を紹介した。 4つの原理を利用したツールは論文もソースコードも探せば無償で入手できるので、興味があればインストールして自分のデータを解析することも可能である(このブログでも紹介している)。ただしペーパーでは…

ショートリードからの構造変化検出4, Tandem duplication

・検出原理 他にも構造変化の種類はあるが、4回目の今回で最後とする。図はTandem duplicationを 捉える例を示している。 Tandem duplicationは配列の挿入が起きているので、広義では挿入の1種と考えられる。ただし、1つ目の配列の隣に挿入されるため、ペ…

ショートリードからの構造変化検出3, Inversion

欠損、挿入に続き、逆位の構造変化を捉える3つの手法についてまとめる。 ・原理 図は逆位 (Inversion) を捉える例を示している。 ・Aのread-count方法ではInversion変異を検出することはできない。 ・read-pair法 (B) ではリファレンスに異常な向き(--> -->…

ショートリードからの構造変化検出2, large Insertion

ショートリードを使った4つの手法による挿入の検出原理を簡潔に説明する。 ・検出原理 次の図は挿入変異を4つの手法で捉える例を示している。 Aのresd-count方法ではリードの増減がないので、挿入変異を検出することはできない。 read-pair法 (B) ではリフ…

ショートリードからの構造変化検出1, large deletion

ショートリードから大きなindelを検出する手法は、大きく4つに分けられる。手法の詳細は論文にまとめられている。 Genome structural variation discovery and genotyping http://www.nature.com/nrg/journal/v12/n5/full/nrg2958.html Detection of genomic…

Indel検出ツールまとめ

250bp x 2のペアリードでテストした時の結果をツールごとにまとめた。 インストール編はこちら Pindel Ye et al. (2009) split-read approaches. splitリード法はいくつか報告されているが、その中でおそらく最もよく知られたツール。原理はインストール編に…

large indel(structural variations)の検出ツールまとめ

随時更新 2017 PindelとPlatypusのフローを修正。 2018 brew tap 修正 ,reebayes、lumpyの誤りを修正。誤字修正。 lumpyの流れを見やすく修正。 2019インストール追記, lumpy -svのdockerイメージリンク追加, breseq dockerイメージの使用例追加, 誤字修正と…

InDel_Hunterのマッピングソフト検討

ARTで250bpでカバレッジ100のシングルfastqを生成。マッピングソフトによるカバレッジの差を調べる。 まずはfastqのジェネレート。 art_illumina -ss MSv3 -sam -i input.fasta -p -l 250 -f 100 -s 10 -o single-read マッピングソフトデフォルト条件での平…