macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

repeat

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラインメントとアノテーションを行う広範囲の下流ツ…

ロングリードからtamdem repeatを見つける TideHunter

TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Techno…

メタゲノムシーケンシングリードからCRISPRスペーサーを検出する MetaCRAST

原核生物のゲノムに見られる clustered regularly interspaced short palindromic repeat (CRISPR) arraysは、我々がより多くの生態系において重要なウイルス - 微生物相互作用をよりよく理解するのを助け得る。ウイルスは溶菌感染を介して細胞内の栄養を生…

スモールゲノムのシンテニーブロックを探して可視化する SiberiaとC-Sibelia

2019 6/9 bioconda インストール追記 同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複…

ロングリードのアセンブリツール Flye

2019 3/16 version2.4.1のヘルプに更新 2019 4/2 論文追記 2019 4/10 テストランのコマンドミス修正 2019 5/14 リンク追加 2019 6/21 コマンド修正、補足 2019 8/20 リンク追加 2019 9/7 You tube動画追加 ゲノムアセンブリの問題は、最終的には、リピートキ…

複数ゲノムを比較し、結果をインタラクティブに視覚化する AliTV

2018 11/12 リンクエラー修正 2019 3/9 分かりにくい部分を修正 過去10年にわたるショートリードシーケンシング、ロングリードシーケンシングおよびアセンブリの進歩(Salzberg et al、2011; Chin et al、2013; Hackl et al、2014)は、全ゲノムシーケンシン…

クラスタリングツール MeShClust

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ(論文より ref.1-6)およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール(ref.…

ラージゲノムにも対応したde novo assembly評価ツール QUAST-LG

2019 7/28 help追記、タイトル修正、コマンド例追記 現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを生成する。低コストで高品質の第2世代シーケンシング…

YSTRなどのショートタンデムリピートを探す STRScan

マイクロサテライトまたは単純配列反復(SSR)とも呼ばれる短いタンデムリピート(STR)は、タンデム反復ユニット(1〜6 bps)を約2〜30個含む短いストレッチのDNAである。 STRは、ヒトなどの哺乳動物ゲノムを含む多くの原核生物および真核生物ゲノムに存在…

ロングリードのマッピングからタンデムリピートを検出する tandem-genotypes

タンデムリピートは、ゲノムDNA中に複数のコピー配列が隣接して存在する領域である。これらの領域は、細胞分裂中の複製エラーのために個体間で非常に可変である。それらは、疾患および健康における表現型変動のソースでもある。タンデムリピートのコピー数改…

DACCOR

シーケンシングリードからのゲノムの再構築は、デノボアセンブリによって達成でき、重複したリードが同定され、コンティグと呼ばれるより長い連続配列に拡張される。あるいは、highly closedなリファレンスゲノムが利用可能であれば、このゲノムに対してリー…

SPAdes

2018 9/5 タイトル修正 2018 9/6 tips追加 2019 5/8 tweet追加 2019 5/15 インストールバージョン3.13.1に更新 ref.1 人体から海洋までほとんどの環境のバクテリアは研究所でクローン化できないため、既存のNGS(Next Generation Sequencing)技術を使用して…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

マイクロサテライトを高速検索する PERF

反復DNAは複雑な生物中のゲノムのかなりの部分を構成し、i) interspersed repeats (以下、散在性反復配列)または transposable elements (以下、転移因子)とii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。反復モチーフの長…

ロングリードを使ってde novoでリピートを探す RepLong

リピートDNA配列は、ゲノムにおいて2回以上出現するセグメント配列である。構成にに基づいて、リピートDNA配列は、interspersed repeats(以下、散在反復配列)と tandem repeats(タンデムリピート)に分けることができる。散在反復配列は非常に同一性が高…

バリアントのコールと可視化のパイプライン MutScan

次世代シーケンシング(NGS)は何千もの突然変異を検出することができる。しかし、一部のアプリケーションでは、これらのうちのほんのわずかなものが対象のターゲットである。 NGS技術によるがんの個人化された医療検査のようなアプリケーションでは、臨床医…

K-mer分析ツール KAT

2019 5/15 リンク、condaインストール追加 2019 5/16 タイトル修正 ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGSデータを分析するた…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

2019 3/5 インストール追記、コマンドのわかりにくい部分を修正 2019 5/14 リンク追加 2019 5/27 docker追加、オプションヘルプ追加 2019 8/27 twitter追記 ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。…

構造変化が起きた部位のマッピング状況を出力する samplot

samplotはbamやcramを入力として、SVの起こった領域の図を出力してくれるツール。vcfからの一括描画にも対応しているため、variant call format(VCF)を出力したら、そのままsamplotに送るようなスクリプトを書くことで、推定SV全てを目視で簡単に確認でき…

ゲノムを比較する MUMmer

2018 9/1-9/6 アライメントワークフロー 2018 11/25 誤字修正 2019 6/9 show-tiling help追加 2019 6/12 dot plot表追加 2019 8/5 インストール追記 MUMmer3 シーケンスアライメントパッケージ[mummer4論文より ref.1]の2004年のpublish以来、バイオインフォ…

k-merを使いSimple sequence repeats (SSRs) を検索する Kmer-SSR

Simple sequence repeats (SSRs) は、DNA複製、修復、または組換えに起こるミスペアリングやミスのために、少なくとも1つの塩基が何回もタンデムに繰り返されるDNAの短いリピート領域である(Levinson and Gutman、1987)。数十年間、SSRは、短いリピート配…

ゲノムワイドにマイクロサテライトを高速検索する PERF

Repetitive DNA はゲノムのかなりの割合を構成し、i)散在したリピートまたは転移可能なエレメントと ii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。繰り返しモチーフの長さに依存して、タンデムリピートは、サテライト(> 100n…

マイクロサテライトの高速検索を行うGUIツール Krait

一般にsimple sequence repeats(SSR)またはsimple tandem repeats(STR)とも呼ばれるマイクロサテライトは、1〜6bpの単位長の短いタンデム反復DNA配列である。マッピングや集団遺伝学、法医学検査および系統解析(Ellegren 2004; Vieira et al、2016)に…

高速な重複の検出ツール DuplicationDetector

重複は、植物ゲノム構造の重要な特徴であり、単一の遺伝子、染色体の一部や全体、さらには全ゲノムを含む可能性がある [論文より ref.1]。被子植物は、それらの進化に沿って大規模な重複および複数の全ゲノム重複を受けたことが示されている[ref.2]。重複遺…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

TE及び単純反復をDe novoで検出する Red

RedはTE及び単純反復の検出ツール。機械学習を通して訓練された。バクテリアゲノムでのテストでは既存のツールより高速に動作し(バクテリアなら10秒程度)、中程度の偽陽性率であった。よく知られている既存のリピート検出ツールと異なり、ほかのアライメン…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

トランスポゾンなどのリピートをde novoで探す RepeatScout

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

マイクロサテライトをraw readsから直接探すpalfinder

palfinderはマイクロサテライトやsimple sequence repeats (SSRs)を探すツール。454やilluminaのNGSデータから直接マイクロサテライトを検出し、さらに内部でprimer3を動かし、その増幅プライマーを設計する機能を備える。 インストール 依存 primer3 primer…

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。 ミニチュートリアル http://mreps.univ-mlv.fr/tutorial.html webサーバー版 http://bioinfo.lifl.fr/mreps/mreps.php インストール Github Gi…