macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

repeat

ラージゲノムにも対応したアセンブリ評価ツール QUAST-LG

現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを生成する。低コストで高品質の第2世代シーケンシング(次世代シークエンシングまたはNGSとも呼ばれる)の…

YSTRなどのショートタンデムリピートを探す STRScan

マイクロサテライトまたは単純配列反復(SSR)とも呼ばれる短いタンデムリピート(STR)は、タンデム反復ユニット(1〜6 bps)を約2〜30個含む短いストレッチのDNAである。 STRは、ヒトなどの哺乳動物ゲノムを含む多くの原核生物および真核生物ゲノムに存在…

ロングリードのマッピングからタンデムリピートを検出する tandem-genotypes

タンデムリピートは、ゲノムDNA中に複数のコピー配列が隣接して存在する領域である。これらの領域は、細胞分裂中の複製エラーのために個体間で非常に可変である。それらは、疾患および健康における表現型変動のソースでもある。タンデムリピートのコピー数改…

DACCOR

シーケンシングリードからのゲノムの再構築は、デノボアセンブリによって達成でき、重複したリードが同定され、コンティグと呼ばれるより長い連続配列に拡張される。あるいは、highly closedなリファレンスゲノムが利用可能であれば、このゲノムに対してリー…

SPAdes

9/5 タイトル修正 9/6 tips追加 ref.1 人体から海洋までほとんどの環境のバクテリアは研究所でクローン化できないため、既存のNGS(Next Generation Sequencing)技術を使用してシーケンスを決定することはできない。これは、Human Microbiome Project(HMP…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

マイクロサテライトを高速検索する PERF

反復DNAは複雑な生物中のゲノムのかなりの部分を構成し、i) interspersed repeats (以下、散在性反復配列)または transposable elements (以下、転移因子)とii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。反復モチーフの長…

ロングリードを使ってde novoでリピートを探す RepLong

リピートDNA配列は、ゲノムにおいて2回以上出現するセグメント配列である。構成にに基づいて、リピートDNA配列は、interspersed repeats(以下、散在反復配列)と tandem repeats(タンデムリピート)に分けることができる。散在反復配列は非常に同一性が高…

バリアントのコールと可視化のパイプライン MutScan

次世代シーケンシング(NGS)は何千もの突然変異を検出することができる。しかし、一部のアプリケーションでは、これらのうちのほんのわずかなものが対象のターゲットである。 NGS技術によるがんの個人化された医療検査のようなアプリケーションでは、臨床医…

K-mer分析ツールキット KAT

ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGSデータを分析するためのリファレンスが不要なアプローチは、基本的な品質、リード長、GC…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。しかしながら、これらのゲノムの最も基本的な特徴、例えばサイズまたはヘテロ接合率などは、最初は未知であり、例えばリードマッパー、デノボアセンブラ、SNP…

構造変化が起きた部位のマッピング状況を出力する samplot

samplotはbamやcramを入力として、SVの起こった領域の図を出力してくれるツール。vcfからの一括描画にも対応しているため、variant call format(VCF)を出力したら、そのままsamplotに送るようなスクリプトを書くことで、推定SV全てを目視で簡単に確認でき…

ゲノムを比較する MUMmer

追記 9/1-9/6 アライメントワークフロー MUMmer3 シーケンスアライメントパッケージ[mummer4論文より ref.1]の2004年のpublish以来、バイオインフォマティクスのランドスケープは劇的に変化した。シーケンスデータを生成するコストは急速に低下し、組み立て…

k-merを使いSimple sequence repeats (SSRs) を検索する Kmer-SSR

Simple sequence repeats (SSRs) は、DNA複製、修復、または組換えに起こるミスペアリングやミスのために、少なくとも1つの塩基が何回もタンデムに繰り返されるDNAの短いリピート領域である(Levinson and Gutman、1987)。数十年間、SSRは、短いリピート配…

ゲノムワイドにマイクロサテライトを高速検索する PERF

Repetitive DNA はゲノムのかなりの割合を構成し、i)散在したリピートまたは転移可能なエレメントと ii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。繰り返しモチーフの長さに依存して、タンデムリピートは、サテライト(> 100n…

マイクロサテライトの高速検索を行うGUIツール Krait

一般にsimple sequence repeats(SSR)またはsimple tandem repeats(STR)とも呼ばれるマイクロサテライトは、1〜6bpの単位長の短いタンデム反復DNA配列である。マッピングや集団遺伝学、法医学検査および系統解析(Ellegren 2004; Vieira et al、2016)に…

高速な重複の検出ツール DuplicationDetector

重複は、植物ゲノム構造の重要な特徴であり、単一の遺伝子、染色体の一部や全体、さらには全ゲノムを含む可能性がある [論文より ref.1]。被子植物は、それらの進化に沿って大規模な重複および複数の全ゲノム重複を受けたことが示されている[ref.2]。重複遺…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

TE及び単純反復をDe novoで検出する Red

RedはTE及び単純反復の検出ツール。機械学習を通して訓練された。バクテリアゲノムでのテストでは既存のツールより高速に動作し(バクテリアなら10秒程度)、中程度の偽陽性率であった。よく知られている既存のリピート検出ツールと異なり、ほかのアライメン…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

RepeatScoutでトランスポゾンなどのリピートをde novoで探す

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

マイクロサテライトをraw readsから直接探すpalfinder

palfinderはマイクロサテライトやsimple sequence repeats (SSRs)を探すツール。454やilluminaのNGSデータから直接マイクロサテライトを検出し、さらに内部でprimer3を動かし、その増幅プライマーを設計する機能を備える。 インストール 依存 primer3 primer…

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。 ミニチュートリアル http://mreps.univ-mlv.fr/tutorial.html webサーバー版 http://bioinfo.lifl.fr/mreps/mreps.php インストール Github Gi…

多機能なNGSの管理ツール BBtools 其の2

の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンドである。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - アセンブリの基本情報をレポートする。 BBDuk - ク…