macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

Pacbio

pacbioのアライナー pbmm2

pbmm2はminimap2のC API用のSMRT C ++ラッパーである。 その目的は、ネイティブのPacBio入出力をサポートし、推奨パラメータセットでソート出力をon-the-fly(複数の処理をまとめて)で生成することである。 BAMがpbmm2への入力として使用されている場合は、…

ロングリードのシミュレーションやロングリードのエラーコレクションツールの評価を行う ELECTOR

Pacific Biosciences(PB)とOxford Nanopore Technologies(ONT)のロングリードは、高いエラーレートと複雑なエラープロファイルにもかかわらず、さまざまなアプリケーションに急速に採用されてきている[論文 ref.1]。これらのリードは、エラー率が高く(…

Pacbioのロングリードのエラーコレクションツール pbdagcon

イルミナなどの第2世代シーケンシング(2GS)プラットフォームは、ゲノムシークエンシングコストを劇的に削減しながら、スループットを飛躍的に向上させた(Shendure and Ji 2008)。 2GSプラットフォームの比較的低コストで大規模なスループットは、数千も…

エラーの多いロングリードのハイブリッドエラーコレクションツール HG-CoLoR

2019 2/9 タイトル修正 最近のPacific Biosciences やOxford Nanoporeのようなロングリードシーケンシング技術は、ショートリード技術で許容されるより大きくて複雑なゲノムのアセンブリ問題を解決する。しかし、これらのロングリードは非常にノイジーで、Pa…

低コスト且つ短時間で行える高分子量gDNA抽出プロトコル

2019 1/7 タイトル修正 複雑なゲノムの新規シーケンシングは、高品質のリファレンス配列を求める研究者にとっての主要な課題の1つである。 多くのde novoアセンブリはショートリードに基づいており、断片化されたゲノム配列を生成する。 リード長が10 kbを超…

ロングリードの分析ツール pauvre

pauvreはdarrin t schultzさんがGithubに公開されている第三世代ロングリード分析用のユーティリティツール。簡潔なstatisticsおよび図を出力して解析をサポートする。 インストール mac os 10.12のminiconda3-4.0.5環境でテストした。 依存 python 3.x matp…

lambda phageコントロールをONTなどのfastqから除く NanoLyse

支配的なsynthesis technology によるシーケンシングは、固定リード長の(50-300bp)の高精度(エラー率<1%)なシーケンシングとして特徴付けられる(Goodwin et al、2016)。対照的に、Oxford Nanopore Technologies(ONT)およびPacific Biosciencesのロ…

ロングリードのアセンブリツール Flye

ゲノムアセンブリの問題は、最終的には、リピートキャラクタライゼーション問題、すなわちリピートグラフとしてのゲノム中のすべてのリピートファミリーをコンパクトに表現する(Pevzner et al。、2004)、ことに結びつく。 Long readの技術はリピートキャラ…

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

ハイブリッドアセンブリのためのアライメントフリー scaffolding graph構築ツール Fast-SG

2018 10/26 タイトル修正 ゲノム全体のデノボアセンブリの主要な課題は、リピートを解決することである[論文より 1,2]。リピートは、ゲノムの複数の位置で生じるほぼ同一のゲノム配列に対応する。この課題に対処するために、主に2つのタイプのアプローチが提…

ロングリードを使ってcontigのscaffoldingを行う LINKS

ロングリードシークエンシング技術はここ数年で急速に成熟し、ゲノムアセンブリへのロングリードの利点は欠かせないものになった[論文より ref.1]。最近、複数グループがエラーの多いロングリードから完全なバクテリアゲノムへのデノボアセンブリが可能であ…

ロングリードのハイブリッドエラーコレクションツール Hercules

10/15 誤字修正 ハイスループットシーケンシング(HTS)技術は、ゲノミクスの分野に革命をもたらしたが、2つの基本的な制限がある。まず第一に、プラットフォームはまだ染色体のロングリードを生成することができない。プラットフォームによっては、平均リー…

ロングリードのマッピングツール lordFAST

ハイスループットシーケンシング(HTS)技術は、発足以来進化してきた(Margulies et al、2005)。特にPacific Biosciences(Eid et al、2009; Korlach et al、2010)およびOxford Nanopore(Cherf et al、2012; Manrao et al、2012; Eisenstein)などの一分…

ラージゲノムにも対応したアセンブリ評価ツール QUAST-LG

現代のDNAシーケンシング技術は染色体の全配列を読み取ることができない。代わりに、それらはゲノムの異なる部分からサンプリングされた多数のリードを生成する。低コストで高品質の第2世代シーケンシング(次世代シークエンシングまたはNGSとも呼ばれる)の…

ロングリードのマッピングからタンデムリピートを検出する tandem-genotypes

タンデムリピートは、ゲノムDNA中に複数のコピー配列が隣接して存在する領域である。これらの領域は、細胞分裂中の複製エラーのために個体間で非常に可変である。それらは、疾患および健康における表現型変動のソースでもある。タンデムリピートのコピー数改…

高速なロングリードのマッピング、エラー訂正、アセンブリツール MECAT

MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴリズムを採用している。 …

ロングリードのアライナー Meta-aligner

次世代シークエンシング(NGS)技術によって生成されるロングリードの数は急速に増加している。リファレンスゲノムへのこれらロングリードの効率的かつ正確なマッピングは、明らかに、リシーケンス解析、RNA-Seq、およびChIP-Seqなどのアプリケーションにお…

SVシミュレーションや、SVのマージ、レポート生成ができる SURVIVOR

一塩基多型(SNP)、小さな挿入 - 欠失事象(indels)、トランスポゾン挿入および大きな構造変化(SV)を含む、様々な遺伝的変化が生物種に影響し得る。欠失、重複、挿入、逆位および転座を含むSVは、タイピングするのが最も困難であり、結果として最もよく…

MinHashを利用した長い配列(ゲノムやロングリード)のアライナー MashMap

(タイトル修正) ハイスループットDNAシーケンサーによって生成されたリードをリファレンスゲノムにマッピングすることは、根本的かつ広く研究されている課題である[Preprintより ref.16,24]。この問題は、BWA [ref.15]やBowtie [ref.12]のようなマッピング…

SPAdes

9/5 タイトル修正 9/6 tips追加 ref.1 人体から海洋までほとんどの環境のバクテリアは研究所でクローン化できないため、既存のNGS(Next Generation Sequencing)技術を使用してシーケンスを決定することはできない。これは、Human Microbiome Project(HMP…

構造変化のリードアライメント状況やゲノム比較結果を可視化する Ribbon

Visualizationは、現在のゲノム革命において、バリアント、発現パターン、進化による変化、および他の多くの関係を検査し、理解するために非常に重要な役割を果たす(Preprint ref.1~3)。しかし、構造変化可視化時のリードとリファレンス、またはリファレン…

リアレンジメントなどの構造変化を可視化して分析する SplitThreader

ゲノム再構成(Genomic rearrangements)および関連するコピー数の変化は、癌遺伝子および腫瘍サプレッサーの発現を変化させ、遺伝子融合を生じさせ、遺伝子発現を誤って調節する可能性があり、癌における重要な推進因子となっている。ここでは、 ゲノム再構…

ロングリードを使ってSVを検出する Picky

ゲノム構造変異の獲得(SV)は、ガンゲノムの主要な特徴であるが、ショートリードシーケンシングデータから再構成することは困難である。ここでは、カスタマイズされたパイプライン、Picky(https://github.com/TheJacksonLaboratory/Picky)を使用し、ナノ…

ロングリードを使ってde novoでリピートを探す RepLong

リピートDNA配列は、ゲノムにおいて2回以上出現するセグメント配列である。構成にに基づいて、リピートDNA配列は、interspersed repeats(以下、散在反復配列)と tandem repeats(タンデムリピート)に分けることができる。散在反復配列は非常に同一性が高…

高速なfastqの前処理パイプライン fastp

2018 10/26 追記 2018 12/06 説明追加 2019 1/11 パラメータ追記 ダウンストリームデータ解析において高品質で信頼性の高いバリアントを得るためには、シーケンシングデータのクオリティ管理と前処理が不可欠となっている。データは、アダプター配列の汚染、…

ショートリードとロングリードのハイブリッドエラーコレクションツール Jabba

生物のDNA配列の正確な決定、すなわち、DNA分子中のヌクレオチドA、C、GおよびTの正確な順序を確立することは、生物学における基本的かつ挑戦的な問題である。本質的にこのプロセスは2つのステップから成っている:(1)ケミカルプロセスによってDNAをシーク…

MinHashを使いfasta / fastqから生物種を高速推定する BBSketch

以前このブログで紹介したBBtoolsに、いつのまにか、Minhashアルゴリズム(リンク)を使ってわずか数秒でゲノムなどの大きな配列を比較し、トップヒットを返してくれる機能が実装されている。Biostarsに使い方が載せてあったので、紹介しておきます。 BBtool…

高速なショートリードとロングリードのアライナ Kart

次世代シーケンシング(NGS)により、生物学者はヌクレオチド分解能でゲノム全体の変異を調べることができる。数多くの画期的な発見に寄与し、DNAの配列決定や集団内の変異の特徴付けに非常に一般的な手法となっている。新しいシークエンシング技術は、1日に…

ロングリードのマッピングからSVを検出する Sniffles

SnifflesはロングリードのSV caller。Githubの説明によれば、主にPacBioのリード用に設計されているが、Oxford Nanoporeのリードにも使用できるとされる。ターゲット SVは、ゲノム上の構造変化(例えば、欠失、重複、挿入、逆位および転座)である。 Sniffle…

SVを考慮したロングリードのアライナー NGMLR

少なくとも50bpの欠失、重複、挿入、逆位および転座を含む構造変化(SV)は、ヒトゲノム(preprintより ref.1)の分岐塩基対(bp)の最大数を占める。 SVは、多型のバリエーション、癌(ref.3)、自閉症(ref.4)、またはアルツハイマー病(ref.5)などのいくつか…