macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

repetitive sequences

De novoで散在性反復配列を検出する REPrise

真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…

タンデムリピートのアノテーションを行う TRASH

ロングリードDNAシーケンスの登場により、多くの真核生物のセントロメアに見られるメガベーススケールのサテライトリピート配列など、高度に反復したゲノム領域の完全なアセンブリが初めて可能になった。このような反復領域のアセンブリにより、高次反復パタ…

クロロプラストゲノムの詳細な構造を可視化する CPGView

クロロプラストゲノムは、植物の系統や進化を研究する上で広く利用されている。クロロプラストゲノムの可視化ツールは、ゲノム上の遺伝子の分布を表示するためにいくつか開発されている。しかし、これらのツールは、エクソン、イントロン、繰り返し要素、可…

全自動のトランスポーザブル・エレメントのアノテーションと解析のパイプライン Earl Grey

トランスポーザブル・エレメント(TE)は、ほぼ全ての真核生物ゲノムに存在し、様々な進化過程に関与している。TEに関する研究は非常に盛んだが、そのアノテーションと特性解析は、特に非専門家にとって依然として困難である。(i)断片的で重複するTEアノテー…

(Prokaryotes)ドラフトゲノムのポリッシングを行う Polypolish

2021 10/21 論文引用 Githubより Polypolishはショートリードによるゲノムアセンブリを研磨するツールです。このカテゴリーの他のツールとは異なり、Polypolishは各リードが(単一の最適な位置ではなく)すべての可能な位置にアラインメントされたSAMファイ…

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

曖昧さを考慮したドットプロットによる視覚的な配列解析を行う FlexiDot

FlexiDotはクロスプラットフォームのドットプロットスイートで、高品質の自己、ペアワイズ、all versus allのビジュアライゼーションを生成する。コンセンサス配列とエラーの多い配列を比較する際のドットプロットの適合性を向上させるために、FlexiDotは曖…

RepeatMaskerのヘルパースクリプトを使う

Philipp BayerさんがRepeatMaskerのヘルパースクリプトを使ってゲノムに散在する反復配列(wiki)がインタラクティブなプロットを作成する例を紹介されていた。試してみる。 TIL: The RepeatMasker helper-scripts https://t.co/JDWpkYAzzo and https://t.co…

リピートの多いゲノム配列にロングリードをマッピングするために最適化されたアライナー Winnowmap

2022/04/02 論文引用 ヒトゲノムの約5~10%は、セグメント重複やタンデムリピート配列などの繰り返し配列が存在するため、機能解析にアクセスできない状態になっている。高品質な個人ゲノムのリシークエンシングを可能にするためには、リピートを考慮したリ…

LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正, タイトル修正(”主に植物”を削除) 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレ…

ゲノムアセンブリからLTR-RTを同定する LTR_retriever

2020 11/6 追記 2023/01/010. 01/11 インストール手順修正 Long terminal repeat retrotransposons (LTR-RT)は植物ゲノムに多く存在する。LTR-RTの同定は、高品質な遺伝子アノテーションを実現するために重要である。しかし、これらのプログラムは特異性が低…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

リピートをマスクする RepeatMasker

2021 3/26 コマンド追加 2022/12更新 2023/01/08, 01/9 追記 RepeatMasker は、DNA 配列をスクリーニングして、散在したリピート配列や、複雑性の低い DNA 配列を検出するプログラムである。プログラムの出力は、クエリ配列に存在するリピートの詳細なアノテ…

De novoでTEを探索する RepeatModeler2

2020 7/5 ProcessRepeatsのhelp追加 2020 7/6 step3修正 2020 7/7 ProcessRepeatsのコマンドの間違いを修正 2022/04/18 追記 2023/07/24 追記 Tree of life全体のゲノム配列決定のペースが加速しているため、 transposable elements(TE)のようなゲノム構成…

繰り返し配列を分析する RepeatProfiler

2020 7/7 リンクミス修正 2020 12/6 論文追記 モデル生物におけるDNAリピートの研究は、ゲノムの進化や表現型の変化を促進する多くのプロセスにおけるリピートDNAの役割を浮き彫りにしている。反復配列はシングルコピーDNAよりもはるかにダイナミックである…

ゲノムのマッピング可能性を調べる GenMap

ゲノムの各位置のk-merの一意性(uniqueness)を計算することは、最大e個のミスマッチを許容しながら計算することが困難である。しかし、CRISPR実験のためのガイドRNAの設計など、多くの生物学的応用には不可欠である。より正式には、一意性または(k, e)マッ…

可変数のタンデムリピート(VNTR)をジェノタイピングする adVNTR

全ゲノムシークエンシングは、臨床パイプラインでメンデルバリアントを同定するために使用されることが多くなってきている。これらのパイプラインでは、より複雑な繰り返し配列のバリアントを無視して、一塩基変異(SNV)や構造変異に焦点を当てている。ここ…

ゲノムから周期的なリピート配列を検出する SPADE

周期的に繰り返されるDNAやタンパク質要素は、ゲノムの進化、遺伝子制御、タンパク質複合体の形成、免疫を含む様々な重要な生物学的事象に関与している。特筆すべきは、現在使用されているZFNs、TALENs、CRISPRsなどのゲノム編集ツールも、すべて天然の生物…

WGSのリードから倍数体ゲノムのゲノムサイズやヘテロ接合度を推定する GenomeScope 2.0

2020 3/21 コマンドの修正と結果追記、タイトル修正、誤字修正 2020 3/23 誤字修正 ゲノムシーケンシングは、現代の分子生物学の不可欠な部分となっている。ただし、利用可能な分析方法の大半は、染色体レベルのリファレンスゲノムと詳細なアノテーションが…

タンデムリピートなどのミスアセンブリを分析する TandemQUAST

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトで、タンデムリピートが真核生物のゲノムに豊富にあることが明らかになった…

ノイズの多いロングリードからリピートを探す Noise Cancelling Repeat Finder

間違って2回Noise Cancelling Repeat Finderのインストールについて投稿してしまいました。申し訳ありません。 タンデムDNAリピートはロングリード技術でシーケンスできるが、これらの技術の高いエラー率を考慮した計算ツールがないため、正確に解読できな…

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった…

indelエラーの多いロングリードからタンデムリピートを探す Noise-cancelling repeat finder

ロングタンデムリピート(LTR)アレイはヘテロクロマチンと関連しており、ヒトゲノムで重要な役割を果たしている。たとえば、(TTAGGG)n TRはテロメアを保護し(Blackburn and Gall、1978)、(AATGG)nリピートはヒートショックレスポンスに関与し(Goenka…

ヒトとマウスの様々なアライナー用indexやアノテーションをダウンロードできる Refgenie

2019 8/15 リンク追記 2020 1/30論文追記 2020 8/28 実行例を一部修正 2022/04/19 画像追加 リファレンスゲノムの構築とキュレーションに多大な努力が注がれている (ref.1–5)。これらのリファレンスアセンブリは結果を比較するための共通の表現を提供し、そ…

ロングリードからtamdem repeatを見つける TideHunter

TideHunterは、タンデムリピートを持つロングリードシーケンス(INC-seq、R2C2、NanoAmpli-Seq)用に設計された効率的で高感度のタンデムリピート検出およびコンセンサスコーリングツールである。Pacific Biosciences(PacBio)およびOxford Nanopore Techno…

メタゲノムシーケンシングリードからCRISPRスペーサーを検出する MetaCRAST

原核生物のゲノムに見られる clustered regularly interspaced short palindromic repeat (CRISPR) arraysは、我々がより多くの生態系において重要なウイルス - 微生物相互作用をよりよく理解するのを助け得る。ウイルスは溶菌感染を介して細胞内の栄養を生…

スモールゲノムのシンテニーブロックを探して可視化する SiberiaとC-Sibelia

2019 6/9 bioconda インストール追記 同じ微生物種内の株を比較することは、病原性の原因となる遺伝子およびゲノム領域の同定、ならびに感染症の診断および治療に有効であることが証明されている。本稿では、Sibeliaという、反復de Bruijnグラフを使用して複…

ロングリードのアセンブリツール Flye

2019 version2.4.1のヘルプに更新、論文追記、テストランのコマンドミス修正、リンク追加、コマンド修正、補足、リンク追加、You tube動画追加 2020 ツイート追加、help更新、例追記、コメント追記、ツイート追記 2021 5/8 動画リンク追加、6/16 subassembli…

複数ゲノムを比較し、結果をインタラクティブに視覚化する AliTV

2018 11/12 リンクエラー修正 2019 3/9 分かりにくい部分を修正 過去10年にわたるショートリードシーケンシング、ロングリードシーケンシングおよびアセンブリの進歩(Salzberg et al、2011; Chin et al、2013; Hackl et al、2014)は、全ゲノムシーケンシン…

クラスタリングツール MeShClust

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ(論文より ref.1-6)およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール(ref.…