error correction
2020 2/7 タイトル修正 MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴ…
2018 タイトル修正、tips追加 2019 tweet追加、誤字修正ンストールバージョン3.13.1に更新、spades3.14に修正 2020 インストール追記、リンク追加、新しい論文引用、ツイート追記 2021 1/14 3.15にhelpを更新、ツイート追記、6/10 更新 2022/08/08 インスト…
2018 10/26 追記, 説明追加 2019 パラメータ追記, パラメータ修正, パラメータ追記, condaインストール追記, 0.14.1のhelpに更新, コメント追記, コマンド追記 2020 1/17 追記, help更新, multiqcと連携する例を追記 2023/01/11 other adapter sequences追記…
2019 7/26 追記 生物のDNA配列の正確な決定、すなわち、DNA分子中のヌクレオチドA、C、GおよびTの正確な順序を確立することは、生物学における基本的かつ挑戦的な問題である。本質的にこのプロセスは2つのステップから成っている:(1)ケミカルプロセスによ…
第二世代シークエンシング技術の代表である Illuminaシークエンシング技術は、エラー率<1%(エラーは塩基置換が支配的)および $0.03–0.04 per million basesのコストで、数百塩基シーケンスできる[論文より ref.1]。ショートリードが低コストであるため、…
2019 7/26 condaインストール追記、流れ修正 ゲノムのデノボアセンブリは、いわゆるロングリードシークエンシング技術の導入により劇的に恩恵を受けている。 PacbioによるSMRTシーケンシングやOxford Nanopore Technologiesによるナノポアシークエンシングプ…
2019 3/24 コメント修正 Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より…
イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…
自然界に存在する大部分の微生物種は培養できないが、メタゲノミクスや最近のシングルセルシーケンス技術によりゲノムにアクセスできるようになってきた。シングルセルシーケンスとメタゲノムのショットガンシーケンスが同じ環境サンプルから生成され、方法…
最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk…
多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせい…
PolluxはIllumina、Ion Torrent、Roche 454のシーケンスエラーを訂正する汎用エラーコレクションツール。置換エラーのほかに、挿入、削除、およびホモポリマーのエラーを検出可能である。公開データでテストされており、Illumina MiSeqの94%、Ion Torrent …
FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…
BLESS、BLESS2はショートリードのエラー補正ツール。BLESSはやや遅いという問題点があった。BLESS2は並列化に対応することで高速化された。またメモリ効率、および精度の要素でもBLESSより改善しているとされる。特に複数のノードが使える条件でランタイムは…
CoLoRMapはショートリードを使ったロングリードのエラー補正ツール。エラー補正によってPacbioのノイジーなロングリードのマッチ率が5~10%上昇する(blasrでアライメントして、マッチした領域内でリファレンスと一致した塩基の割合)。精度は他のツールと同…
多くのインフォマティクスツールはzlibのAPIを介してgzip圧縮ファイルを直接読み込むことができるが、オーサーらはgzipより圧縮率が高く、ファイル内のk-merを紹介できるツールBEETLを開発した。BEETL (Burrows-Wheeler Extended Tool Library) はfastq、fas…
QuorUMはMaSuRCAなどにも組み込まれているエラーコレクションパイプライン。 インストール Github https://github.com/gmarcais/Quorum brewで導入できる( macではエラーになったのでubuntu14.4にlinuxbrewで入れた)。 > quorum --help user$ quorum --help …
LoRMAはPacbioなどのロングリードのエラーコレクションツール。ロングリードのエラーコレクションは、ショートリードを使ったハイブリッドなエラーコレクション法とロングリード自身を使ったエラーコレクション法が報告されている。LoRMAは後者に属する方法…
2019 7/26 help追記 2019 12/30 タイトルのpacbio削除、コマンド修正 LoRDECはショートリードを使ってロングリードのエラー修正を行う方法論。ロングリードによるセルエラー修正は深いカバレッジを必要とし、コストが高くなるデメリットを持つ。 LoRDECは低…
2020 8/7 インストール追記 Rcorrectorはシーケンスカバレッジが異なるデータに適応可能なエラー補正の方法論。RNAのNGSデータだけでなく、カバレッジが不均一なシングルセルに対しても適応可能となっている(ウィルスも可能?)。もう一つのRNA用エラーコレ…
インストール cent OSに導入した。 Github https://github.com/sheikhizadeh/ACE/ brewで導入できる。 パスが通ったディレクトリに移動しておく。 user$ delly ********************************************************************** Program: Delly This…
インストール cent OSに導入した。 Github https://github.com/mourisl/Lighter git clone https://github.com/mourisl/Lighter.gitcd Lighter/make./lighter #動作確認 ghter]$ lighter Usage: ./lighter [OPTIONS] OPTIONS: Required parameters: -r seq_f…
2018 12/07 コマンド修正 2021 1/21 help更新 Musketはk-merスペクトルに基づいたエラー補正ツール。他のエラー補正ツールよりメモリ要求量が少ないとされている(ref.1)。 Musket HP http://musket.sourceforge.net/homepage.htm インストール cent OSとub…
100MBのデータならおよそ10秒程度で処理できる(10スレッド使用時)。 インストール Github git clone https://github.com/lh3/bfc.gitcd bfc/make./bfc -h #動作確認 user$ ./bfc -h Usage: bfc [options] <to-count.fq> [to-correct.fq] Options: -s FLOAT approx genom</to-count.fq>…
2019 9/8 インストール追記 De novo assembly時、シーケンスエラーを間違ってscaffoldsに組み込んでしまうと、dead-endのグラフができたり、false positiveの分岐が生じたり、あるいはキメラのパスができてしまう可能性がある。そのため、アセンブル前にエラ…
2019 追記、 dockerリンク追加、help all追加、コメント追記 2020 help更新、追記 2021 2/25 誤字修正、5/9 ツイート追加 2022 1/25 v5に対応してインストール手順を修正、02/22, 09/21 インストール手順を修正 2023/07/11,12 追記 2024/02/07, 11追記 現在…
2018 9/22 タイトル変更 nanocorrectはナノポアリードをpolishする方法論。速度が遅いのが欠点らしく、後継としてnaonpolishが発表されている(リンク)。 インストール 依存 daligner DAZZ_DB POA 全てbrewで導入できる。 Github 実行方法 最初にDALIGNERの…
2018 9/5 bbmerge-auto.sh修正 2019 5/14 BBnormコメント修正、パラメータ修正、ヘルプ追加 bbmap.sh2019 6/13 タイトル修正、6/19 其の3追記 2020 1/29 condaインストール追記、メモリ使用量指定、11/6 誤字修正 2023/02/02 追記 BBtoolsはアメリカのJGIが…