macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Nanopore long read

long RNA sequencingリードの正確なアラインメントを行う uLTRA

ロングリードRNAシークエンシング技術は、トランスクリプトームのランドスケープを研究するための主要なシークエンシング技術として急速に確立されつつある。このような解析の多くは、ゲノムに対するリードのスプライスアラインメントに依存している。しかし…

性染色体のロングリードソート法 SRY

現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能と…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスクリプトームとの比較、あるいは複数のシークエンシング…

エラーの多いロングリードをアセンブリグラフにアラインする GraphAligner

ゲノムグラフは、遺伝的変異や配列の不確実性を表現することができる。ゲノムグラフに配列をアラインさせることは、エラー修正、ゲノムアセンブリ、パンゲノムグラフ内のバリアントのジェノタイピングなど、多くのアプリケーションの鍵を握っている。しかし…

Transcript-level Aware なロングリードのエラーコレクションを行う TALC

ロングリードシーケンシング技術は、複雑なRNAトランスクリプト構造を決定するために非常に重要だが、エラーが発生しやすい。同じサンプルからシーケンスされたショートリードの精度と深さを利用してロングリードを補正する「ハイブリッド補正」アルゴリズム…

エラーの多いロングリードのハイブリッドエラーコレクションツール Ratatosk

2020 7/26 追記 全ゲノムシークエンシングのルーチン化には、ショートリードシークエンシング(SRS)技術を補完するロングリードシークエンシング(LRS)技術が不可欠になってきている。LRSプラットフォームは103 から106塩基のDNAフラグメントリードを生成…

ONTのメチレーションコールを視覚化する Methplotlib

2020 7/24 追記 DNA配列を変化させないエピジェネティックな共有ヌクレオチド修飾は、トランスポゾンの抑制、発生時の発現調節、インプリンティングされた発現およびX染色体サイレンシングを含む多くの機能を有し(Gigante et al、2019; GreenbergおよびBour…

ノイズの多いロングリードを使ってSVをコールする SVIM

2020 7/21 出力画像追加 構造変異とは、50 bpよりも大きいゲノム変異と定義されている。構造変異は、一塩基多型や小さな挿入・欠失よりも、任意のゲノムのより多くの塩基に影響を与えることが示されている。さらに、これらの変異はヒトの表現型や多様性に大…

インタラクティブなレポートを出力するONTのクオリティコントロールツール pycoQC

2020 7/21 コマンドでダブルスペースになっていた部分を修正 核酸のナノポアシーケンシングは、開発に30年近くを要し、現在では合成法によるシーケンシングの代替手段として確固たる地位を確立している(Deamer, Akeson, & Branton, 2016)。オックスフォード…

TGSデータのためのQCツール LongQC

2020 7/27 追記 ショートリードシーケンス技術は、過去 10 年間の生物学のパラダイムを変えてきた。最近では、TGSが登場し、1分子からの非常に長いが比較的エラーが発生しやすいリードを提供している。FastQC (https://www.bioinformatics.babraham.ac.uk/p…

リアルタイムで 素早くONTシークエンシングのマッピング結果をモニタリングする RAMPART

2020 7/13 誤字修正、説明の誤り修正 アウトブレイク解析では時間が非常に重要である。最近のシーケンス準備の進歩により、多くの病原体ではシーケンスがボトルネックとなっている。多くの病原体のゲノムサイズが小さいため、MinION シーケンシングにより数…

特定の領域由来のロングリードを高速選抜する selectION

SelectION: Identification of predefined genomic regions in large nanopore DNA London Calling 2017 インストール ubuntu18.04LTSでテストした。 ビルド依存 requires gcc > 5 and the following libraries: boost filesystem boost program_options boo…

ロングリードのマルチプルシーケンスアラインメントを行う abPOA (POAのSIMD実装拡張)

マルチプルシーケンスアラインメント(MSA)問題を解決するために、Leeら(2002)によって最初に導入されたのがPartial order alignment(POA)である。POAでは、MSAをdirected acyclic graph(DAG)(有向無閉路グラフ)として表現し、動的計画法(wiki)(…

( メタゲノム)ONTのロングリードをアセンブリしてコンプリートMAGsを生成する lathe

2020 4/29 実行手順修正 細菌および古細菌での完全なメタゲノムアセンブリゲノム(MAG)の新規生成は、マイクロバイオーム研究における長年の目標である。既存のメタゲノムシーケンスおよびアセンブリ法では通常、完成した細菌ゲノムシーケンスが得られない…

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

2020 9/8 論文追記 ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは飛躍的に充実し、細菌や真菌の小さなゲノムから真核生物の大きなゲノムへと…

medakaを使ってコンセンサスコールを行う

2020 3/23 コマンドの間違いを修正 2020 3/24 説明追記 Documentation 特徴 basecallされたデータのみ必要(.fastaまたは.fastq) グラフベースのメソッド(Raconなど)よりも精度が向上 Nanopolishよりも50倍高速(GPU実行できるため) オーダーメイドの補…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

ノイズの多いロングリードからリピートを探す Noise Cancelling Repeat Finder

間違って2回Noise Cancelling Repeat Finderのインストールについて投稿してしまいました。申し訳ありません。 タンデムDNAリピートはロングリード技術でシーケンスできるが、これらの技術の高いエラー率を考慮した計算ツールがないため、正確に解読できな…

ロングリードのアセンブリをpolishする NextPolish

ロングリードシーケンシング技術は長い連続性を持つゲノムを生成できるが、エラー率が高くなる。 そこで、長いリードでアセンブリされたゲノムの配列エラーを効率的に修正するツールであるNextPolishを開発した。 この新しいツールは、高品質のショートリー…

エラーの多いロングリードのエラー修正とアセンブリを行う NECAT

2020 2/7 パラメータエラー修正 2020 2/8 わかりにくい表現を修正 2020 3/12 わかりにくい説明を修正 ナノポアのロングリードはde novoゲノムアセンブリで有利だが、ゲノム研究への適用は、これらロングリードの複雑なエラーによって依然として妨げられてい…

シミュレーション精度と速度が改善された DeepSimulator1.5

2020 2/1 タイトル追加、文章追加、誤字修正 2020 2/2 誤字修正 2020 3/9 コマンド修正 ナノポアシーケンスは、主要な第3世代シーケンステクノロジーの1つである。 Nanoporeデータの処理と分析を容易にするために、多くの計算ツールが開発された。以前、Deep…

tombo

Tomboは、主にナノポアシーケンスデータから修飾されたヌクレオチドを同定するためのツールスイートである。 Tomboは、生のナノポア信号の分析と可視化のためのツールも提供する。Tomboのre-squiggleアルゴリズムは、Tomboフレームワークの基礎である。 Re-s…

GuppyのGPU版を使う

2020 7/23 モニターコマンド追記 タイトルの通り、GuppyのGPU版を使うまでの流れをまとめておきます。 ubuntuへのインストール 1、Nvidia GPU driverのインストール #レポジトリの追加sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update#NV…

ロングリードやショートリードのRNA seq情報をもとに転写領域をアセンブリして出力する StringTie2

2020 7/1 インストール方法追記, コマンド追記 2020 7/2 タイトル修正 2020 7/27 merge追記 RNAシーケンス(RNAシーケンス)データセット内の転写産物の量を測定することは、細胞の働きを理解するための強力な方法である。リードをリファレンスゲノムに合わ…

エラーの多いロングリードをタンデムリピートにマッピングする tandemmapper

タンデムリピートは、不均等なクロスオーバーによってしばしば生成される複数の連続するほぼ同一のシーケンスによって形成される(Smith、1976)。初期のDNAシーケンスプロジェクトから、タンデムリピートが真核生物ゲノムに豊富にあることが明らかになった…

miniasmでアセンブリして得たGFAをポリッシュする minipolish

Miniasmはパワフルで高速なロングリードのアセンブリツールだが、polishステップを持たないため、実質、得られた配列は連結されたロングリードである。polishにはraconが使用できるが、raconはFASTAファイルで動作し、Miniasmが出力するGFAをファイルを入力…

(ヒトゲノム向け)ニューラルネットワークを使用したロングリードのSVコーラー NanoVar

構造変異は、多くのヒト疾患の発症に関与しており、ヒト集団の遺伝的変異の大部分を占めている(ref.3,4)。 50 b5を超えるゲノム変化として定義される構造変異(SV)は、遺伝子調節異常または新規遺伝子融合を引き起こす可能性のある遺伝子病変を形成するこ…

冗長なデータベースに対して正確なmappingを行う KMA

バイオインフォマティクスで最も古く、おそらくおそらく最も重要なツールは、1つまたは複数の配列のアラインメントである。アラインメントは、ある配列が別の配列とどのように類似しているかを示し、類似の配列パターンの豊富さを定量するために使用できる。…

indelエラーの多いロングリードからタンデムリピートを探す Noise-cancelling repeat finder

ロングタンデムリピート(LTR)アレイはヘテロクロマチンと関連しており、ヒトゲノムで重要な役割を果たしている。たとえば、(TTAGGG)n TRはテロメアを保護し(Blackburn and Gall、1978)、(AATGG)nリピートはヒートショックレスポンスに関与し(Goenka…

メタゲノムのmappingを行う MetaMaps

メタゲノム配列の分類は、高速で正確かつ情報豊富でなければならない。新しいロングシーケンステクノロジーは、これらの要素間のバランスを改善することを約束するが、ほとんどの既存の方法はショートリード用に設計されている。 MetaMapsは、ロングリリード…