macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

repetitive sequences

ラージゲノムにも対応したde novo assembly評価ツール QUAST-LG

2019 7/28 help追記、タイトル修正、コマンド例追記 2019 10/20 リンク追加 2020 1/11 インストール修正 現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを…

YSTRなどのショートタンデムリピートを探す STRScan

マイクロサテライトまたは単純配列反復(SSR)とも呼ばれる短いタンデムリピート(STR)は、タンデム反復ユニット(1〜6 bps)を約2〜30個含む短いストレッチのDNAである。 STRは、ヒトなどの哺乳動物ゲノムを含む多くの原核生物および真核生物ゲノムに存在…

ロングリードのマッピングからタンデムリピートを検出する tandem-genotypes

タンデムリピートは、ゲノムDNA中に複数のコピー配列が隣接して存在する領域である。これらの領域は、細胞分裂中の複製エラーのために個体間で非常に可変である。それらは、疾患および健康における表現型変動のソースでもある。タンデムリピートのコピー数改…

DACCOR

シーケンシングリードからのゲノムの再構築は、デノボアセンブリによって達成でき、重複したリードが同定され、コンティグと呼ばれるより長い連続配列に拡張される。あるいは、highly closedなリファレンスゲノムが利用可能であれば、このゲノムに対してリー…

SPAdesアセンブラ

2018 タイトル修正、tips追加 2019 tweet追加、誤字修正ンストールバージョン3.13.1に更新、spades3.14に修正 2020 インストール追記、リンク追加、新しい論文引用、ツイート追記 2021 1/14 3.15にhelpを更新、ツイート追記、6/10 更新 2022/08/08 インスト…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

マイクロサテライトを高速検索する PERF

反復DNAは複雑な生物中のゲノムのかなりの部分を構成し、i) interspersed repeats (以下、散在性反復配列)または transposable elements (以下、転移因子)とii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。反復モチーフの長…

ロングリードを使ってde novoでリピートを探す RepLong

リピートDNA配列は、ゲノムにおいて2回以上出現するセグメント配列である。構成にに基づいて、リピートDNA配列は、interspersed repeats(以下、散在反復配列)と tandem repeats(タンデムリピート)に分けることができる。散在反復配列は非常に同一性が高…

バリアントのコールと可視化のパイプライン MutScan

次世代シーケンシング(NGS)は何千もの突然変異を検出することができる。しかし、一部のアプリケーションでは、これらのうちのほんのわずかなものが対象のターゲットである。 NGS技術によるがんの個人化された医療検査のようなアプリケーションでは、臨床医…

K-mer分析ツール KAT

2019 5/15 リンク、condaインストール追加 2019 5/16 タイトル修正 2020 9/27 help更新 ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGS…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

2019 3/5 インストール追記、コマンドのわかりにくい部分を修正 2019 5/14 リンク追加 2019 5/27 docker追加、オプションヘルプ追加 2019 8/27 twitter追記 ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。…

構造多型部位のマッピング状況を出力する samplot

2020 9/26 Preprint引用、condaによるインストールコマンド、help追記 2021 5/27 論文追記 構造変異(SV)検出において、視覚的な検証は偽陽性を排除するために不可欠なステップである。著者らは、ショートリード、ロングリード、フェーズドリードを含む、複…

ゲノムを比較する MUMmer

2018 9/1-9/6 アライメントワークフロー 2018 11/25 誤字修正 2019 6/9 show-tiling help追加 2019 6/12 dot plot表追加 2019 8/5 インストール追記 2019 11/12 bioconda link追加 MUMmer3 シーケンスアライメントパッケージ[mummer4論文より ref.1]の2004年…

k-merを使いSimple sequence repeats (SSRs) を検索する Kmer-SSR

Simple sequence repeats (SSRs) は、DNA複製、修復、または組換えに起こるミスペアリングやミスのために、少なくとも1つの塩基が何回もタンデムに繰り返されるDNAの短いリピート領域である(Levinson and Gutman、1987)。数十年間、SSRは、短いリピート配…

ゲノムワイドにマイクロサテライトを高速検索する PERF

Repetitive DNA はゲノムのかなりの割合を構成し、i)散在したリピートまたは転移可能なエレメントと ii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。繰り返しモチーフの長さに依存して、タンデムリピートは、サテライト(> 100n…

マイクロサテライトの高速検索を行うGUIツール Krait

一般にsimple sequence repeats(SSR)またはsimple tandem repeats(STR)とも呼ばれるマイクロサテライトは、1〜6bpの単位長の短いタンデム反復DNA配列である。マッピングや集団遺伝学、法医学検査および系統解析(Ellegren 2004; Vieira et al、2016)に…

高速な重複の検出ツール DuplicationDetector

重複は、植物ゲノム構造の重要な特徴であり、単一の遺伝子、染色体の一部や全体、さらには全ゲノムを含む可能性がある [論文より ref.1]。被子植物は、それらの進化に沿って大規模な重複および複数の全ゲノム重複を受けたことが示されている[ref.2]。重複遺…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

リピート領域をマスクしてプライマー設計を支援するPrimer3_maskerと、プライマーを作成するprimer3

#2018 9/20 brew によるインストールとprimer3のコマンド追加 2018 10/22 わかりにくい部分を修正 2020 3/9 インストール手順修正 2020 3/18 誤字修正 2021 4/18 インストール手順修正 Primer3_maskerは、ゲノムに対してk-mer頻度のデータベースを構築し、プ…

TE及び単純反復をDe novoで検出する Red

2020 10/5 インストール追記 技術の急速な進歩により、何千もの種のゲノムの配列が利用できるようになってきている。これらの配列の中には、ゲノムの大部分を構成するリピートが含まれている。そのため、アノテーションを成功させるためには、リピートを正確…

TEなどのリピート配列をDe novoで検出し、マスクするphRAIDER

RepeatMaskerはTEなどの検索によく使われているが、プリコンパイルされたライブラリを必要とする。ゲノム解析された哺乳類では、このプリコンパイルされたライブラリを用いてTE検索が可能になるが、植物で近縁種のゲノムを使った場合、うまくいかないことが…

トランスポゾンなどのリピートをde novoで探す RepeatScout

RepeatScoutはゲノム中のトランスポゾンなどのリピートを探すツール。リピートを見つけると、そのシードを保存性がなくなるまで伸長する戦略をとることで、見つかりにくい長くてやや配列に違いがあるリピートまで探索することが可能とされる(タンデムリピー…

マイクロサテライトをraw readsから直接探すpalfinder

palfinderはマイクロサテライトやsimple sequence repeats (SSRs)を探すツール。454やilluminaのNGSデータから直接マイクロサテライトを検出し、さらに内部でprimer3を動かし、その増幅プライマーを設計する機能を備える。 インストール 依存 primer3 primer…

mrepsでタンデムリピートを探す

mrepsはダイレクトリピートを探すツール。短い単位の繰り返し配列がタンデムに続く領域を検出することができる。 ミニチュートリアル http://mreps.univ-mlv.fr/tutorial.html webサーバー版 http://bioinfo.lifl.fr/mreps/mreps.php インストール Github Gi…

多機能なNGS分析ツール BBtools 其の2

20196/13 タイトル修正 2020 7/24 bbdukコマンド追記 の続き。BBtoolsの残りのコマンドを紹介する。紹介するのは以下のコマンド。 Reformat - フォーマット変換やクオリティトリミング。 Repair - ペアリードの順番が壊れたファイルを修復する。 Stats - ア…

ゲノム比較ビューア Artemis comparison tool (ACT)

2019 2/13 condaインストール追記 2020 2/25 コメント追加、3/9 インストール方法変更、5/1 使用例追記 2021 1/8 インストール方法変更(blastを追加)、5/23 インストール手順の誤字修正 2023/10/24 biopythonのインストール方法変更 Artemis comparison tool…