macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

error correction

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

複数のアセンブラとk-merを使ったTranscriptome 自動アセンブリワークフロー Oyster River Protocol

2018 11/2 コマンド追記 & 誤字修正 2018 11/7 誤字修正 現代のシーケンシング技術は細胞内の代謝過程から人口変動パターンまで、非常に幅広い自然現象の基礎となるゲノムレベルのプロセスを深く理解する機会を提供してきた。トランスクリプトームシーケンシ…

ロングリードのハイブリッドエラーコレクションツール Hercules

10/15 誤字修正 ハイスループットシーケンシング(HTS)技術は、ゲノミクスの分野に革命をもたらしたが、2つの基本的な制限がある。まず第一に、プラットフォームはまだ染色体のロングリードを生成することができない。プラットフォームによっては、平均リー…

クラスタリングツール Starcode

すべてのシーケンシング技術はある程度の不正確さを持っている。例えば、Illuminaプラットフォーム(Margulies et al、2005)は、 主に置換からなる1〜2%のエラー率を有し(Dohm et al、2008; Nakamura et al、2011)、PacBioプラットフォームは挿入および…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

高速なロングリードのマッピング、エラー訂正、アセンブリツール MECAT

MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴリズムを採用している。 …

SPAdes

9/5 タイトル修正 9/6 tips追加 ref.1 人体から海洋までほとんどの環境のバクテリアは研究所でクローン化できないため、既存のNGS(Next Generation Sequencing)技術を使用してシーケンスを決定することはできない。これは、Human Microbiome Project(HMP…

高速なfastqの前処理パイプライン fastp

2018 10/26追記 ダウンストリームデータ解析において高品質で信頼性の高いバリアントを得るためには、シーケンシングデータのクオリティ管理と前処理が不可欠となっている。データは、アダプター配列の汚染、塩基含有量のバイアス、過度な配列を持つことがあ…

ショートリードとロングリードのハイブリッドエラーコレクションツール Jabba

生物のDNA配列の正確な決定、すなわち、DNA分子中のヌクレオチドA、C、GおよびTの正確な順序を確立することは、生物学における基本的かつ挑戦的な問題である。本質的にこのプロセスは2つのステップから成っている:(1)ケミカルプロセスによってDNAをシーク…

ロングリードのエラーコレクション halc

第二世代シークエンシング技術の代表である Illuminaシークエンシング技術は、エラー率<1%(エラーは塩基置換が支配的)および $0.03–0.04 per million basesのコストで、数百塩基シーケンスできる[論文より ref.1]。ショートリードが低コストであるため、…

   ロングリード単独またはNGSとの併用でコンセンサス配列を得る Sparc

以前の世代と比較して、第3世代シークエンシング(以後 3GS)は5〜120 kbのリードを得ることができる。しかし、現時点で報告されているエラー率はPacBioシークエンシング(論文より Koren et al、2012)で約15%、オックスフォードナノポア配列決定(Laver e…

ロングリードのハイブリッドエラーコレクションツール FMLRC

ゲノムのデノボアセンブリは、いわゆるロングリードシークエンシング技術の導入により劇的に恩恵を受けている。 PacbioによるSMRTシーケンシングやOxford Nanopore Technologiesによるナノポアシークエンシングプラットフォームなどのこれらの技術は、典型的…

ロングリードのハイブリッドエラーコレクションツール HECIL

Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より 例[ref.9]参照)、第2世…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

メタゲノムデータを使ってシングルセルのエラー訂正を行う MeCorS

自然界に存在する大部分の微生物種は培養できないが、メタゲノミクスや最近のシングルセルシーケンス技術によりゲノムにアクセスできるようになってきた。シングルセルシーケンスとメタゲノムのショットガンシーケンスが同じ環境サンプルから生成され、方法…

エラーコレクションツール Trowel

最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk…

454のホモポリマーに対応したエラーコレクションツール HECTOR

多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせい…

置換、indel、ホモポリマーに対応したエラーコレクションツール Pollux

PolluxはIllumina、Ion Torrent、Roche 454のシーケンスエラーを訂正する汎用エラーコレクションツール。置換エラーのほかに、挿入、削除、およびホモポリマーのエラーを検出可能である。公開データでテストされており、Illumina MiSeqの94%、Ion Torrent …

エラーコレクションツール FMOC

FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…

エラーコレクションツール BLESS2

BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…

ロングリードのハイブリッドエラーコレクションツール CoLoRMap

CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

イルミナのエラーコレクションツール QuorUM

QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …

ロングリードのセルフエラーコレクションツール LoRMA

LoRMAはPacbioなどのロングリードのエラーコレクションツール。ロングリードのエラーコレクションは、ショートリードを使ったハイブリッドなエラーコレクション法とロングリード自身を使ったエラーコレクション法が報告されている。LoRMAは後者に属する方法…

Pacbioのハイブリッドエラーコレクションツール LoRDEC

LoRDECはショートリードを使ってロングリードのエラー補正を行う方法論。ロングリード自信によるエラー補正は深いカバレッジを必要とするためコストが高くなるデメリットを持つ。 LoRDECは低コストで高い信頼性をもつショートリードを使い、Pacbioのロングリ…

RNAのエラーコレクションツール Rcorrector

Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレクションツールSEECERより1…

エラーコレクションツール ACE

インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…

エラーコレクションツール lighter

インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…

illuminaのエラーコレクションツール Musket

Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSに導入した。 SourceForge tar xvf musket-1.1.tar…

エラーコレクションツール BFC

処理速度が非常に高速な事も特徴で、100MBのデータならおよそ10秒程度で処理できる(10スレッド使用時)。 インストール Github https://github.com/lh3/bfc git clone https://github.com/lh3/bfc.gitcd bfc/make./bfc -h #動作確認 user$ ./bfc -h Usage: …