macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

repetitive sequences

リピートの多いゲノム配列にロングリードをマッピングするために最適化されたアライナー Winnowmap

ヒトゲノムの約5~10%は、セグメント重複やタンデムリピート配列などの繰り返し配列が存在するため、機能解析にアクセスできない状態になっている。高品質な個人ゲノムのリシークエンシングを可能にするためには、リピートを考慮したリードマッピング手法を…

(主に植物)LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex; LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレトロトランスポゾンの正確なde novo同…

ゲノムアセンブリからLTR-RTを同定する LTR_retriever

2020 11/6 追記 Long terminal repeat retrotransposons (LTR-RT)は植物ゲノムに多く存在する。LTR-RTの同定は、高品質な遺伝子アノテーションを実現するために重要である。しかし、これらのプログラムは特異性が低く、偽発見率が高いという問題があった。こ…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

RepeatMasker

RepeatMasker は、DNA 配列をスクリーニングして、散在したリピート配列や、複雑性の低い DNA 配列を検出するプログラムである。プログラムの出力は、クエリ配列に存在するリピートの詳細なアノテーションと、アノテーションされたリピートがすべてマスクさ…

De novoでTEを探索する RepeatModeler2

2020 7/5 ProcessRepeatsのhelp追加 2020 7/6 step3修正 2020 7/7 ProcessRepeatsのコマンドの間違いを修正 Tree of life全体のゲノム配列決定のペースが加速しているため、 transposable elements(TE)のようなゲノム構成要素の教師なしアノテーションを改…

繰り返し配列を分析する RepeatProfiler

2020 7/7 リンクミス修正 モデル生物におけるDNAリピートの研究は、ゲノムの進化や表現型の変化を促進する多くのプロセスにおけるリピートDNAの役割を浮き彫りにしている。反復配列はシングルコピーDNAよりもはるかにダイナミックであるため、進化の遅いゲノ…

ゲノムのマッピング可能性を調べる GenMap

ゲノムの各位置のk-merの一意性(uniqueness)を計算することは、最大e個のミスマッチを許容しながら計算することが困難である。しかし、CRISPR実験のためのガイドRNAの設計など、多くの生物学的応用には不可欠である。より正式には、一意性または(k, e)マッ…

可変数のタンデムリピート(VNTR)をジェノタイピングする adVNTR

全ゲノムシークエンシングは、臨床パイプラインでメンデルバリアントを同定するために使用されることが多くなってきている。これらのパイプラインでは、より複雑な繰り返し配列のバリアントを無視して、一塩基変異(SNV)や構造変異に焦点を当てている。ここ…

ゲノムから周期的なリピート配列を検出する SPADE

周期的に繰り返されるDNAやタンパク質要素は、ゲノムの進化、遺伝子制御、タンパク質複合体の形成、免疫を含む様々な重要な生物学的事象に関与している。特筆すべきは、現在使用されているZFNs、TALENs、CRISPRsなどのゲノム編集ツールも、すべて天然の生物…

WGSのリードから倍数体ゲノムのゲノムサイズやヘテロ接合度を推定する GenomeScope 2.0

2020 3/21 コマンドの修正と結果追記、タイトル修正、誤字修正 2020 3/23 誤字修正 ゲノムシーケンシングは、現代の分子生物学の不可欠な部分となっている。ただし、利用可能な分析方法の大半は、染色体レベルのリファレンスゲノムと詳細なアノテーションが…

タンデムリピートなどのミスアセンブリを分析する TandemQUAST

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトで、タンデムリピートが真核生物のゲノムに豊富にあることが明らかになった…

ノイズの多いロングリードからリピートを探す Noise Cancelling Repeat Finder

間違って2回Noise Cancelling Repeat Finderのインストールについて投稿してしまいました。申し訳ありません。 タンデムDNAリピートはロングリード技術でシーケンスできるが、これらの技術の高いエラー率を考慮した計算ツールがないため、正確に解読できな…

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった…

indelエラーの多いロングリードからタンデムリピートを探す Noise-cancelling repeat finder

ロングタンデムリピート(LTR)アレイはヘテロクロマチンと関連しており、ヒトゲノムで重要な役割を果たしている。たとえば、(TTAGGG)n TRはテロメアを保護し(Blackburn and Gall、1978)、(AATGG)nリピートはヒートショックレスポンスに関与し(Goenka…

ヒトとマウスの様々なアライナー用indexをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、それらはシーケンスアラ…

ロングリードからtamdem repeatを見つける TideHunter

TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Techno…

メタゲノムシーケンシングリードからCRISPRスペーサーを検出する MetaCRAST

原核生物のゲノムに見られる clustered regularly interspaced short palindromic repeat (CRISPR) arraysは、我々がより多くの生態系において重要なウイルス - 微生物相互作用をよりよく理解するのを助け得る。ウイルスは溶菌感染を介して細胞内の栄養を生…

スモールゲノムのシンテニーブロックを探して可視化する SiberiaとC-Sibelia

2019 6/9 bioconda インストール追記 同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複…

ロングリードのアセンブリツール Flye

2019 3/16 version2.4.1のヘルプに更新 2019 4/2 論文追記 2019 4/10 テストランのコマンドミス修正 2019 5/14 リンク追加 2019 6/21 コマンド修正、補足 2019 8/20 リンク追加 2019 9/7 You tube動画追加 2020 3/4 ツイート追加 2020 3/5 help更新 2020 3/9…

複数ゲノムを比較し、結果をインタラクティブに視覚化する AliTV

2018 11/12 リンクエラー修正 2019 3/9 分かりにくい部分を修正 過去10年にわたるショートリードシーケンシング、ロングリードシーケンシングおよびアセンブリの進歩(Salzberg et al、2011; Chin et al、2013; Hackl et al、2014)は、全ゲノムシーケンシン…

クラスタリングツール MeShClust

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ(論文より ref.1-6)およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール(ref.…

ラージゲノムにも対応したde novo assembly評価ツール QUAST-LG

2019 7/28 help追記、タイトル修正、コマンド例追記 2019 10/20 リンク追加 2020 1/11 インストール修正 現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを…

YSTRなどのショートタンデムリピートを探す STRScan

マイクロサテライトまたは単純配列反復(SSR)とも呼ばれる短いタンデムリピート(STR)は、タンデム反復ユニット(1〜6 bps)を約2〜30個含む短いストレッチのDNAである。 STRは、ヒトなどの哺乳動物ゲノムを含む多くの原核生物および真核生物ゲノムに存在…

ロングリードのマッピングからタンデムリピートを検出する tandem-genotypes

タンデムリピートは、ゲノムDNA中に複数のコピー配列が隣接して存在する領域である。これらの領域は、細胞分裂中の複製エラーのために個体間で非常に可変である。それらは、疾患および健康における表現型変動のソースでもある。タンデムリピートのコピー数改…

DACCOR

シーケンシングリードからのゲノムの再構築は、デノボアセンブリによって達成でき、重複したリードが同定され、コンティグと呼ばれるより長い連続配列に拡張される。あるいは、highly closedなリファレンスゲノムが利用可能であれば、このゲノムに対してリー…

SPAdesアセンブラ

2018 9/5 タイトル修正 2018 9/6 tips追加 2019 5/8 tweet追加 2019 5/15 インストールバージョン3.13.1に更新 2019 12/31 spades3.14に修正 2019 1/7 誤字修正 2020 1/14 インストール追記 2020 5/6 リンク追加 2020 10/6 新しい論文引用とツイート追記 ref…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

マイクロサテライトを高速検索する PERF

反復DNAは複雑な生物中のゲノムのかなりの部分を構成し、i) interspersed repeats (以下、散在性反復配列)または transposable elements (以下、転移因子)とii)タンデムリピートの2つのカテゴリーに大別できる(Kumar et al、2010)。反復モチーフの長…

ロングリードを使ってde novoでリピートを探す RepLong

リピートDNA配列は、ゲノムにおいて2回以上出現するセグメント配列である。構成にに基づいて、リピートDNA配列は、interspersed repeats(以下、散在反復配列)と tandem repeats(タンデムリピート)に分けることができる。散在反復配列は非常に同一性が高…