macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

error correction

高速なロングリードのマッピング、エラー修正、アセンブリツール MECAT

2020 2/7 タイトル修正 MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴ…

SPAdesアセンブラ

2018 タイトル修正、tips追加 2019 tweet追加、誤字修正ンストールバージョン3.13.1に更新、spades3.14に修正 2020 インストール追記、リンク追加、新しい論文引用、ツイート追記 2021 1/14 3.15にhelpを更新、ツイート追記、6/10 更新 2022/08/08 インスト…

高速なfastqの前処理パイプライン fastp

2018 10/26 追記, 説明追加 2019 パラメータ追記, パラメータ修正, パラメータ追記, condaインストール追記, 0.14.1のhelpに更新, コメント追記, コマンド追記 2020 1/17 追記, help更新, multiqcと連携する例を追記 2023/01/11 other adapter sequences追記…

ショートリードとロングリードのハイブリッドエラーコレクションツール Jabba

2019 7/26 追記 生物のDNA配列の正確な決定、すなわち、DNA分子中のヌクレオチドA、C、GおよびTの正確な順序を確立することは、生物学における基本的かつ挑戦的な問題である。本質的にこのプロセスは2つのステップから成っている:(1)ケミカルプロセスによ…

ロングリードのエラーコレクション halc

第二世代シークエンシング技術の代表である Illuminaシークエンシング技術は、エラー率<1%(エラーは塩基置換が支配的)および $0.03–0.04 per million basesのコストで、数百塩基シーケンスできる[論文より ref.1]。ショートリードが低コストであるため、…

ロングリードのハイブリッドエラーコレクションツール FMLRC

2019 7/26 condaインストール追記、流れ修正 ゲノムのデノボアセンブリは、いわゆるロングリードシークエンシング技術の導入により劇的に恩恵を受けている。 PacbioによるSMRTシーケンシングやOxford Nanopore Technologiesによるナノポアシークエンシングプ…

ロングリードのハイブリッドエラーコレクションツール HECIL

2019 3/24 コメント修正 Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

メタゲノムデータを使ってシングルセルのエラー訂正を行う MeCorS

自然界に存在する大部分の微生物種は培養できないが、メタゲノミクスや最近のシングルセルシーケンス技術によりゲノムにアクセスできるようになってきた。シングルセルシーケンスとメタゲノムのショットガンシーケンスが同じ環境サンプルから生成され、方法…

エラーコレクションツール Trowel

最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk…

454のホモポリマーに対応したエラーコレクションツール HECTOR

多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせい…

置換、indel、ホモポリマーに対応したエラーコレクションツール Pollux

PolluxはIllumina、Ion Torrent、Roche 454のシーケンスエラーを訂正する汎用エラーコレクションツール。置換エラーのほかに、挿入、削除、およびホモポリマーのエラーを検出可能である。公開データでテストされており、Illumina MiSeqの94%、Ion Torrent …

エラーコレクションツール FMOC

FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…

エラーコレクションツール BLESS2

BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…

ロングリードのハイブリッドエラーコレクションツール CoLoRMap

CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…

検索可能な圧縮を行う BEETL

多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…

イルミナのエラーコレクションツール QuorUM

QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …

ロングリードのセルフエラーコレクションツール LoRMA

LoRMAはPacbioなどのロングリードのエラーコレクションツール。ロングリードのエラーコレクションは、ショートリードを使ったハイブリッドなエラーコレクション法とロングリード自身を使ったエラーコレクション法が報告されている。LoRMAは後者に属する方法…

ハイブリッドエラーコレクションツール LoRDEC

2019 7/26 help追記 2019 12/30 タイトルのpacbio削除、コマンド修正 LoRDECはショートリードを使ってロングリードのエラー修正を行う方法論。ロングリードによるセルエラー修正は深いカバレッジを必要とし、コストが高くなるデメリットを持つ。 LoRDECは低…

RNA seqのエラーコレクションツール Rcorrector

2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…

エラーコレクションツール ACE

インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…

エラーコレクションツール lighter

インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…

illuminaのエラーコレクションツール Musket

2018 12/07 コマンド修正 2021 1/21 help更新 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSとub…

エラーコレクションツール BFC

100MBのデータならおよそ10秒程度で処理できる(10スレッド使用時)。 インストール Github git clone https://github.com/lh3/bfc.gitcd bfc/make./bfc -h #動作確認 user$ ./bfc -h Usage: bfc [options] <to-count.fq> [to-correct.fq] Options: -s FLOAT approx genom</to-count.fq>…

エラーコレクションツール karect

2019 9/8 インストール追記 De novo assembly時、シーケンスエラーを間違ってscaffoldsに組み込んでしまうと、dead-endのグラフができたり、false positiveの分岐が生じたり、あるいはキメラのパスができてしまう可能性がある。そのため、アセンブル前にエラ…

ハイブリッドアセンブリにも対応したショートリードアセンブラ Unicycler

2019 追記、 dockerリンク追加、help all追加、コメント追記 2020 help更新、追記 2021 2/25 誤字修正、5/9 ツイート追加 2022 1/25 v5に対応してインストール手順を修正、02/22, 09/21 インストール手順を修正 2023/07/11,12 追記 2024/02/07, 11追記 現在…

ロングリードをpolishする nanocorrect

2018 9/22 タイトル変更 nanocorrectはナノポアリードをpolishする方法論。速度が遅いのが欠点らしく、後継としてnaonpolishが発表されている(リンク)。 インストール 依存 daligner DAZZ_DB POA 全てbrewで導入できる。 Github 実行方法 最初にDALIGNERの…

多機能なNGS分析ツール BBtools 其の1

2018 9/5 bbmerge-auto.sh修正 2019 5/14 BBnormコメント修正、パラメータ修正、ヘルプ追加 bbmap.sh2019 6/13 タイトル修正、6/19 其の3追記 2020 1/29 condaインストール追記、メモリ使用量指定、11/6 誤字修正 2023/02/02 追記 BBtoolsはアメリカのJGIが…