macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Nanopore long read

ロングリードおよび長い配列のアライナー LRA

1分子シークエンシング(SMS)装置からのロングリードや、SMSアセンブリからのメガベーススケールのコンティグをアラインメントしてバリエーションを検出することは、計算量的に困難である。長い配列を効率的にアラインメントするための1つのアプローチは、…

リピートの多いゲノム配列にロングリードをマッピングするために最適化されたアライナー Winnowmap

ヒトゲノムの約5~10%は、セグメント重複やタンデムリピート配列などの繰り返し配列が存在するため、機能解析にアクセスできない状態になっている。高品質な個人ゲノムのリシークエンシングを可能にするためには、リピートを考慮したリードマッピング手法を…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

ロングリードのアラインメントツール minialign

Minialignは、PacBioやNanoporeのロングリード用に設計された、高速で中程度の精度のヌクレオチド配列アライメントツールである。ミニマップオーバーラッパーのミニマイザーベースのインデックス、配列ベースのシードチェイニング、SIMD-パラレルSmith-Water…

ONTのリードを量子化(離散化)して扱う QAlign

2020 10/16 論文引用 DNA/RNA配列のリードを互いに、あるいはリファレンスゲノム/トランスクリプトームに効率的かつ正確にアラインメントすることは、ゲノム解析における重要な問題である。ナノポアシーケンシングは主要なシーケンシング技術として登場し、…

long RNA sequencingリードの正確なアラインメントを行う uLTRA

ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし…

性染色体のロングリードソート法 SRY

現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能と…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスクリプトームとの比較、あるいは複数のシークエンシング…

エラーの多いロングリードをアセンブリグラフにアラインする GraphAligner

ゲノムグラフは、遺伝的変異や配列の不確実性を表現することができる。ゲノムグラフに配列をアラインさせることは、エラー修正、ゲノムアセンブリ、パンゲノムグラフ内のバリアントのジェノタイピングなど、多くのアプリケーションの鍵を握っている。しかし…

Transcript-level Aware なロングリードのエラーコレクションを行う TALC

ロングリードシーケンシング技術は、複雑なRNAトランスクリプト構造を決定するために非常に重要だが、エラーが発生しやすい。同じサンプルからシーケンスされたショートリードの精度と深さを利用してロングリードを補正する「ハイブリッド補正」アルゴリズム…

エラーの多いロングリードのハイブリッドエラーコレクションツール Ratatosk

2020 7/26 追記 全ゲノムシークエンシングのルーチン化には、ショートリードシークエンシング(SRS)技術を補完するロングリードシークエンシング(LRS)技術が不可欠になってきている。LRSプラットフォームは103 から106塩基のDNAフラグメントリードを生成…

ONTのメチレーションコールを視覚化する Methplotlib

2020 7/24 追記 DNA配列を変化させないエピジェネティックな共有ヌクレオチド修飾は、トランスポゾンの抑制、発生時の発現調節、インプリンティングされた発現およびX染色体サイレンシングを含む多くの機能を有し(Gigante et al、2019; GreenbergおよびBour…

ノイズの多いロングリードを使ってSVをコールする SVIM

2020 7/21 出力画像追加 構造変異とは、50 bpよりも大きいゲノム変異と定義されている。構造変異は、一塩基多型や小さな挿入・欠失よりも、任意のゲノムのより多くの塩基に影響を与えることが示されている。さらに、これらの変異はヒトの表現型や多様性に大…

インタラクティブなレポートを出力するONTのクオリティコントロールツール pycoQC

2020 7/21 コマンドでダブルスペースになっていた部分を修正 核酸のナノポアシーケンシングは、開発に30年近くを要し、現在では合成法によるシーケンシングの代替手段として確固たる地位を確立している(Deamer, Akeson, & Branton, 2016)。オックスフォード…

TGSデータのためのQCツール LongQC

2020 7/27 追記 ショートリードシーケンス技術は、過去 10 年間の生物学のパラダイムを変えてきた。最近では、TGSが登場し、1分子からの非常に長いが比較的エラーが発生しやすいリードを提供している。FastQC (https://www.bioinformatics.babraham.ac.uk/p…

リアルタイムで 素早くONTシークエンシングのマッピング結果をモニタリングする RAMPART

2020 7/13 誤字修正、説明の誤り修正 アウトブレイク解析では時間が非常に重要である。最近のシーケンス準備の進歩により、多くの病原体ではシーケンスがボトルネックとなっている。多くの病原体のゲノムサイズが小さいため、MinION シーケンシングにより数…

特定の領域由来のロングリードを高速選抜する selectION

SelectION: Identification of predefined genomic regions in large nanopore DNA London Calling 2017 インストール ubuntu18.04LTSでテストした。 ビルド依存 requires gcc > 5 and the following libraries: boost filesystem boost program_options boo…

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

( メタゲノム)ONTのロングリードをアセンブリしてコンプリートMAGsを生成する lathe

2020 4/29 実行手順修正 細菌および古細菌での完全なメタゲノムアセンブリゲノム(MAG)の新規生成は、マイクロバイオーム研究における長年の目標である。既存のメタゲノムシーケンスおよびアセンブリ法では通常、完成した細菌ゲノムシーケンスが得られない…

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

2020 9/8 論文追記 2020 10/2 condaインストール追記 2020 10/9 helpとインストール手順更新 ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは…

medakaを使ってコンセンサスコールを行う

2020 3/23 コマンドの間違いを修正 2020 3/24 説明追記 2020 10/10 ツイート追記 Documentation We've release v1.1.2 of @nanopore's medaka software. Updates include: consensus model for Guppy 4.0.11, a true ploidy-1 variant caller, doesn't break…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

ノイズの多いロングリードからリピートを探す Noise Cancelling Repeat Finder

間違って2回Noise Cancelling Repeat Finderのインストールについて投稿してしまいました。申し訳ありません。 タンデムDNAリピートはロングリード技術でシーケンスできるが、これらの技術の高いエラー率を考慮した計算ツールがないため、正確に解読できな…

ロングリードのアセンブリをpolishする NextPolish

ロングリードシーケンシング技術は長い連続性を持つゲノムを生成できるが、エラー率が高くなる。 そこで、長いリードでアセンブリされたゲノムの配列エラーを効率的に修正するツールであるNextPolishを開発した。 この新しいツールは、高品質のショートリー…

エラーの多いロングリードのエラー修正とアセンブリを行う NECAT

2020 2/7 パラメータエラー修正 2020 2/8 わかりにくい表現を修正 2020 3/12 わかりにくい説明を修正 ナノポアのロングリードはde novoゲノムアセンブリで有利だが、ゲノム研究への適用は、これらロングリードの複雑なエラーによって依然として妨げられてい…

シミュレーション精度と速度が改善された DeepSimulator1.5

2020 2/1 タイトル追加、文章追加、誤字修正 2020 2/2 誤字修正 2020 3/9 コマンド修正 ナノポアシーケンスは、主要な第3世代シーケンステクノロジーの1つである。 Nanoporeデータの処理と分析を容易にするために、多くの計算ツールが開発された。以前、Deep…

tombo

Tomboは、主にナノポアシーケンスデータから修飾されたヌクレオチドを同定するためのツールスイートである。 Tomboは、生のナノポア信号の分析と可視化のためのツールも提供する。Tomboのre-squiggleアルゴリズムは、Tomboフレームワークの基礎である。 Re-s…

GuppyのGPU版を使う

2020 7/23 モニターコマンド追記 タイトルの通り、GuppyのGPU版を使うまでの流れをまとめておきます。 ubuntuへのインストール 1、Nvidia GPU driverのインストール #レポジトリの追加sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update#NV…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の働きを理解するための強力な方法である。リードをリファレンスゲノムに合わ…

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった…