macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

mapping

高速なロングリードのマッピング、エラー訂正、アセンブリツール MECAT

MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴリズムを採用している。 …

NGSデータをマッピングする Magic-BLAST

Magic-BLASTは、NGSシーケンスデータ(Illumina、Roche-454、ABI(SOLiDを除く))をゲノムやトランスクリプトーム全体に対してマッピングするため開発されたNCBI BLASTの派生ツール。Magic-BLASTは他のBLASTプログラムと同様に動作し、はじめにシード16塩基…

ロングリードのアライナー Meta-aligner

次世代シークエンシング(NGS)技術によって生成されるロングリードの数は急速に増加している。リファレンスゲノムへのこれらロングリードの効率的かつ正確なマッピングは、明らかに、リシーケンス解析、RNA-Seq、およびChIP-Seqなどのアプリケーションにお…

MinHashを利用した長い配列(ゲノムやロングリード)のアライナー MashMap

(タイトル修正) ハイスループットDNAシーケンサーによって生成されたリードをリファレンスゲノムにマッピングすることは、根本的かつ広く研究されている課題である[Preprintより ref.16,24]。この問題は、BWA [ref.15]やBowtie [ref.12]のようなマッピング…

マルチマッピングを補正する MMR

ハイスループットシーケンシングデータのリファレンス配列への迅速かつ正確なマッピングの必要性に対処するために、過去数年間に多くの異なるソフトウェアツールが開発されてきており、その多くは頻繁に更新および改良されている(論文より Dobin et al、201…

高速かつ高感度なRNA/DNAのアライナー HPG Aligner

ハイスループットシーケンサーの最新世代は、前例のないスケールでデータを生成し、関連するシーケンシングコストが連続的に減少している。特に、トランスクリプトームの包括的なプロファイルを提供するRNAシーケンシング(RNA-seq)技術(論文より ref.1)…

コード領域のリアライメントによってバリアントコールを改善する ABRA

indel検出を制限するアラインメントエラーおよびリファレンスバイアスを克服するために、多数のリアライメントおよびアセンブリ方法が提案されている。ショートリードのマイクロアライナーは、局所的に組み立てられたバリアントグラフへリードを局所的に再調…

高速なショートリードとロングリードのアライナ Kart

次世代シーケンシング(NGS)により、生物学者はヌクレオチド分解能でゲノム全体の変異を調べることができる。数多くの画期的な発見に寄与し、DNAの配列決定や集団内の変異の特徴付けに非常に一般的な手法となっている。新しいシークエンシング技術は、1日に…

コンパクトなhashテーブルを用いた高速なマッピングツール FEM

DNA配列決定は、生物学および医学の多くの分野において強力な技術となっている。過去10年間のハイスループットシーケンシングプラットフォームにおける技術革新により、ゲノミクスの分野で革命が起こった。 1回のシーケンスで、数十億回のショートリードを迅…

ヒトゲノムの統合された変異検出パイプライン speedseq

第2世代のDNA配列決定技術の技術的進歩により、全ゲノム配列決定(WGS)データを生成するために必要なコストと時間が削減され、これまでにない深さと範囲でヒトゲノムを調査することができるようになった。しかし、計算処理やバリアント解釈のボトルネックは…

SVを考慮したロングリードのアライナー NGMLR

少なくとも50bpの欠失、重複、挿入、逆位および転座を含む構造変化(SV)は、ヒトゲノム(preprintより ref.1)の分岐塩基対(bp)の最大数を占める。 SVは、多型のバリエーション、癌(ref.3)、自閉症(ref.4)、またはアルツハイマー病(ref.5)などのいくつか…

Complete Genomicsのシーケンスリードをマッピングする sirfast

ハイスループットシークエンシング(HTS)技術は、[論文より ref.1]におけるペアエンド配列決定、および全ゲノムショットガンシーケンシング(WGS)[ref.2]の最初の使用以来、魅力的な速度で進化し続けている。 Roche / 454 [ref.3]、Illumina [ref.4]、ABI …

高速なロング/ショートリードアライナー minimap2

Single Molecule Real-Time(SMRT)シークエンシング技術とOxford Nanopore technologies(ONT)は、10kbp以上の長さのリードを約15%のエラー率で生成する。そのようなデータのためにいくつかのアライナーが開発されている(論文より Chaisson and Tesler、…

コマンドライン環境のゲノムブラウザ ASCIIGenome

次世代シーケンシングデータの視覚化は、研究者が結果の質を評価し仮説を生成することを可能にするゲノミクスの基本的な部分である。したがって、ゲノムデータをブラウズするためのいくつかのプログラムは、ゲノミクスコミュニティの間で広く普及しており、…

color spaceのアライナー CUSHAW3

次世代シークエンシング(NGS)技術の出現と急速な進歩により、ショートリードアラインメントアルゴリズムの開発には相当量の研究努力が払われてきた。様々なショートリードアライナーが開発されており、機能性の点でさらに2つの世代に分類することができる…

Pacbioのロングリードアライナー HISEA

デノボゲノムアセンブリは、リファレンスゲノムを使用せずにシーケンシングリードから生物のゲノム全体を再構築する。ハイスループットのNGS技術は、微生物および真核生物ゲノムの反復領域の大部分よりもはるかに小さい、数百塩基対の短いリードを生成する。…

PacBioのロングリードのアライナー rHAT

1分子リアルタイム(SMRT)シーケンシングでは、ノイズの多いロングリードをリファレンスゲノムにアライメントすることが依然としてコストのかかる作業になっている。 SMRTリードアライメントの効率性と有効性を改善するための新しいアプローチが求められてい…

   高速なロングリードのスプリットアライナー LAMSA

Illumina のSynthetic Long-Read(http://www.illumina.com/technology/next-generation-sequencing/long-read-sequencing-technology.html)、PacBio Single Molecular Real-Silence(HTS) (Eid et al、2009)およびOxford Nanopore Technologies(Eisens…

高速なRNA seqのマッピングツール DART

近年の次世代シーケンシング(NGS)プラットフォームの出現により、大量並列cDNAシークエンシング(RNA-Seq)技術は、発現の高分解能測定および低量の転写産物の検出における高感度を提供するもう一つの強力なツールとなっている。 RNA-Seqは、事前の遺伝子…

高速なRNA seqのマッピングツール HISAT2

RNA-seqは、2008年に導入されて以来、遺伝子発現、転写体構造、長い非コード化RNAと融合転写物の同定のためのツールとして普及してきた(論文より ref.2-5) RNA-seq解析は、リードを参照ゲノムに対してアライメントさせ、リードの起点となる場所を決定する…

   ペアエンドRNAシーケンスを使いアセンブルを改善する P_RNA_scaffolder

ゲノムシークエンシングプロジェクトでは、遺伝子の同定は機能的研究と比較分析の基本である。メイトペアライブラリーおよびロングリードは高品質のアセンブリの生成を容易にするが、すべての遺伝子の完全な構造を回復することは困難であり、解決にはnovelな…

複数の似たリファレンスが利用できるデータのアライメント作業を高速化するCompMap

種によって利用できるリファンレスの数は大きく異なる。例えばアウトブレイクした菌種を同定するために、1つのfastqデータをたくさんのリファンレスにアライメントするような作業を行う場合、リファレンスが数百ー数万も利用できると、アライメント作業が計…

シングルコアでも高速なRNA seqのアライナー RapMap

RapMapはRNAのアライナー。非常に高速で、ほかのツールと比較すると、Bowtie2より数十倍高速で、高速なSTARと比べても2倍以上高速にアライメントできる(Figure2参照)。アライメントが 具体的には7500万のリードをヒトトランスクリプトームに10分程度でア…

SNVやRNA edittingに適した高精度なRNA seqのアライナー RASER

RNAのシーケンスデータをゲノムにアライメントする場合、イントロンを跨いでリードをアライメントする必要があるため、リードをsplitしてアライメントできるアライナーが使われる(真核生物のRNA seq)。イントロンは数十kbもある可能性があるので、split-al…

BWAに近い精度でかつ数倍高速なマッピングツール FSVA

HiseqX10などの登場でシーケンススループットはますます高まっているが、ソフトの方が追いついていない。200GBのデータを処理するのに、BWA MEMだと1CPU使用で80時間程度かかる(20コアでようやく10-20時間)。解決には分散コンピューティング(e.g., pBWA、Sp…

SNPsをエラーとして扱わないマッピングが可能な mrsFAST-Ultra

mrsFAST-UltraはSNPsに対応した次世代リードのアライメントツール。 mrsFASTの改良版となる。既知SNPsを許容しながら(ミスマッチとして扱わないためidentityが上がる)アライメントを行うことができる。indexファイルの軽量化にも成功しており、bowtie2でin…

NanoBLASTer でナノポアリードをアライメントする

NanoBLASTer はナノポア用のアライメントツール。S. cerevisiaeとEscherichia coliのゲノムリシーケンス解析で、LAST、BLAST、 BWA-MEM、GraphMap よりアライメント率が高く、ランニングタイムも短かったと主張されている。 ダウンロード Github https://git…

qplotでマッピングを評価する

qplotはマッピング結果の統計情報を出力したり、empiricalなクオリティスコアとマッピング結果から求めたベースクオリティスコアの差などをグラフ化したPDFを出力することができる(既知SNPsファイルが必要)。クオリティの低い塩基(バーコードとか)が残っ…

多機能なNGSの管理ツール BBtools 其の1

BBtoolsはアメリカのJGIが提供している多機能なNGS向けの解析ツール。2014年にオープンソース化されたらしい。論文は現在準備中とある。アライメントのBBmapや、オーバーラップがないペアリードをマージするBBMerge、エラーコレクションしたfastqを出力するB…

RNA seqの高速なリードアライメントツール STAR

STARは高速なRNAのアライメントツール。intron-exonのsplit-alingmentに対応している。動作はbowtie2より10倍以上高速とされ、マッピング感度の高さとエラー率の低さは既存のツールと同等とされている。 github https://github.com/alexdobin/STAR マニュ…