macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

error correction

第3世代ロングリードを使ってアセンブリのギャップを閉じる TGS-GapCloser

ゲノムシーケンシング技術の開発は、この10年間でコストの削減とムーアの法則を超えるスピードでスループットを向上させてきた[ref.1]。遺伝子配列データベースは飛躍的に充実し、細菌や真菌の小さなゲノムから真核生物の大きなゲノムへと焦点が移っている。…

エラーの多いロングリードのエラー修正とアセンブリを行う NECAT

2020 2/7 パラメータエラー修正 2020 2/8 わかりにくい表現を修正 2020 3/12 わかりにくい説明を修正 ナノポアのロングリードはde novoゲノムアセンブリで有利だが、ゲノム研究への適用は、これらロングリードの複雑なエラーによって依然として妨げられてい…

ONT cDNA ロングリードのエラー修正を行うisONcorrect

ロングリードを使用したトランスクリプトームシーケンスは、細胞の転写ランドスケープを理解するための強力な方法であることが証明されている(Wyman et al、n.d .; Bayega et al、2018; Byrne、Cole、et al、2019)。ロングリードテクノロジーにより、ほと…

再現性のあるメタゲノム解析を行うためのモジュール設計された自動パイプライン Sunbeam

2019 6/26 誤字修正 メタゲノミックショットガンシークエンシングは、関心のある微生物混合群からDNAを抽出し、無作為に抽出されたDNAをディープシーケンシングする。これは、特定の標的遺伝子領域が増幅およびシーケンシングされるマーカー遺伝子シーケンシ…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

k-merカウントツール Squeakr

Massively parallel high-throughput sequencing (HTS) 技術の登場により、シーケンシング能力は劇的に増加している。増加するHTSデータに対処するための新しい計算方法の多くは、k-mer(k塩基の文字列)をシーケンスの分析の最小単位として使用する。例えば…

viral quasispeciesのアセンブリを行う SAVAGE

2019 5/20 誤字修正、コメント、ヘルプ追加 HIV、Zika、Ebolaなどのウイルスは、一般的にウイルス準種(viral quasispecies, wiki)と呼ばれる、遺伝的に関連しているが異なる変異株の集団として宿主に存在する。それぞれ独自のハプロタイプ配列によって特徴…

ロングリードのself error correctionやcontigのポリッシングを行う CONSENT

2019 4/16 マッピングの画像追加 2019 7/22 インストール、help追記、エラー修正 2019 9/8 コメント追加 2019 11/11 Segmentation faultのリンク追記 2020 2/11 追記 2020 2/17 追記 2020 3/23 論文更新のツイート追記 第3世代のシークエンシング技術Pacific…

pacbioロングリードセルフエラーコレクションを改善する FLAS

2019 7/26 タイトル修正 第3世代シーケンシーング技術は、そのはるかにリード長において第2世代よりも有利である(Eid et al、2009)。第3世代のシーケンシング技術の代表として、PacBioの一分子リアルタイム(SMRT)技術は現在、平均5〜15K bpのロングリ…

ロングリードのシミュレーションやロングリードのエラーコレクションツールの評価を行う ELECTOR

Pacific Biosciences(PB)とOxford Nanopore Technologies(ONT)のロングリードは、高いエラーレートと複雑なエラープロファイルにもかかわらず、さまざまなアプリケーションに急速に採用されてきている[論文 ref.1]。これらのリードは、エラー率が高く(…

Pacbioのロングリードのエラーコレクションツール pbdagcon

イルミナなどの第2世代シーケンシング(2GS)プラットフォームは、ゲノムシークエンシングコストを劇的に削減しながら、スループットを飛躍的に向上させた(Shendure and Ji 2008)。 2GSプラットフォームの比較的低コストで大規模なスループットは、数千も…

シーケンスエラーの多いロングリードのハイブリッドエラーコレクションツール HG-CoLoR

2019 2/9 タイトル修正 2019 5/24 condaインストール捕捉, HG-CoLoRのオプション変更に伴いパラメータ修正 2019 7/22 誤字修正、コマンド修正 2019 7/23タイトル修正、わかりにくいコマンド修正 2020 3/2 コマンド更新 2020 3/9 インストール手順修正 最近の…

既知変異を保護しながらロングリードRNA seqのエラーを訂正する TranscriptClean

従来のショートリードRNAシークエンシングは、様々な用途における遺伝子発現を定量するために広く使用されている。ショートリードリードは正確で費用効果が高いが、一般に数キロベース長ある全長哺乳動物アイソフォームを解決する能力が欠けている(論文より…

複数のアセンブラとk-merを使ったTranscriptome 自動アセンブリワークフロー Oyster River Protocol

2018 11/2 コマンド追記 & 誤字修正 2018 11/7 誤字修正 2019 4/6 docker追記 2019 6/17 追記、誤字修正 2019 6/21追記 2019 7/5 Step by step instructions link追記 現代のシーケンシング技術は細胞内の代謝過程から人口変動パターンまで、非常に幅広い自…

ロングリードのハイブリッドエラーコレクションツール Hercules

2018 10/15 誤字修正 2019 5/23 ”make -j 8”に修正, docke help追記 ハイスループットシーケンシング(HTS)技術は、ゲノミクスの分野に革命をもたらしたが、2つの基本的な制限がある。まず第一に、プラットフォームはまだ染色体のロングリードを生成するこ…

クラスタリングツール Starcode

すべてのシーケンシング技術はある程度の不正確さを持っている。例えば、Illuminaプラットフォーム(Margulies et al、2005)は、 主に置換からなる1〜2%のエラー率を有し(Dohm et al、2008; Nakamura et al、2011)、PacBioプラットフォームは挿入および…

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

高速なロングリードのマッピング、エラー修正、アセンブリツール MECAT

2020 2/7 タイトル修正 MECATは、1分子シークエンシング(SMRT)リードの超高速マッピング、エラー訂正、およびデノボアセンブリを行うツール。State of the artのアライナとエラー訂正ツールよりもはるかに効率的な、新しいアライメントとエラー訂正アルゴ…

SPAdesアセンブラ

2018 9/5 タイトル修正 2018 9/6 tips追加 2019 5/8 tweet追加 2019 5/15 インストールバージョン3.13.1に更新 2019 12/31 spades3.14に修正 2019 1/7 誤字修正 2020 1/14 インストール追記 ref.1 人体から海洋までほとんどの環境のバクテリアは研究所でクロ…

高速なfastqの前処理パイプライン fastp

2018 10/26 追記 2018 12/06 説明追加 2019 1/11 パラメータ追記 2019 2/25 パラメータ修正 2019 5/6 パラメータ追記 2019 5/23 condaインストール追記 2019 6/10 0.14.1のhelpに更新 2019 6/21 コメント追記 2019 7/14 コマンド追記 2020 1/17 追記 2020 3/…

ショートリードとロングリードのハイブリッドエラーコレクションツール Jabba

2019 7/26 追記 生物のDNA配列の正確な決定、すなわち、DNA分子中のヌクレオチドA、C、GおよびTの正確な順序を確立することは、生物学における基本的かつ挑戦的な問題である。本質的にこのプロセスは2つのステップから成っている:(1)ケミカルプロセスによ…

ロングリードのエラーコレクション halc

第二世代シークエンシング技術の代表である Illuminaシークエンシング技術は、エラー率<1%(エラーは塩基置換が支配的)および $0.03–0.04 per million basesのコストで、数百塩基シーケンスできる[論文より ref.1]。ショートリードが低コストであるため、…

ロングリードのハイブリッドエラーコレクションツール FMLRC

2019 7/26 condaインストール追記、流れ修正 ゲノムのデノボアセンブリは、いわゆるロングリードシークエンシング技術の導入により劇的に恩恵を受けている。 PacbioによるSMRTシーケンシングやOxford Nanopore Technologiesによるナノポアシークエンシングプ…

ロングリードのハイブリッドエラーコレクションツール HECIL

2019 3/24 コメント修正 Pacific Biosciences [論文より ref.4,5]およびOxford Nanopore [ref.6,7,8]によって導入された第3世代シークエンシング技術は、かなり長いリードを生成する。これらのロングリードには、通常、数千の塩基対が含まれており(論文より…

k-merサイズを変えながらエラー訂正を繰り返す SGA-ICE (IterativeErrorCorrection)

イルミナのMiSeqでシーケンスを1回実行すると、300 bpのペアエンドで15ギガバイト(GB)のデータが出力される。Illumina HiSeq 2500では、最大ペアエンド250 bpで300 GBのシーケンスが可能担っている。この高いスループットは、ゲノムアセンブリにとって魅力…

メタゲノムデータを使ってシングルセルのエラー訂正を行う MeCorS

自然界に存在する大部分の微生物種は培養できないが、メタゲノミクスや最近のシングルセルシーケンス技術によりゲノムにアクセスできるようになってきた。シングルセルシーケンスとメタゲノムのショットガンシーケンスが同じ環境サンプルから生成され、方法…

エラーコレクションツール Trowel

最も広く適用されてきたエラー訂正方法は、スペクトルアラインメントの手法で(Pevzner et al。、2001)、これはk -merスペクトルに依存したアルゴリズムとなる。すなわち、与えられた閾値よりも頻繁に発生するk -mer(solidまたは 'trusted')と頻度の低いk…

454のホモポリマーに対応したエラーコレクションツール HECTOR

多くの誤り訂正方法が開発・発表されているが、454のホモポリマーを明示的に対象としたエラー訂正ツールはほぼない(2014年時点)。 ホモポリマーのindelは454パイロシークエンシングの主要なシークエンシングエラーの1つで、ホモポリマーエラーが あるせい…

置換、indel、ホモポリマーに対応したエラーコレクションツール Pollux

PolluxはIllumina、Ion Torrent、Roche 454のシーケンスエラーを訂正する汎用エラーコレクションツール。置換エラーのほかに、挿入、削除、およびホモポリマーのエラーを検出可能である。公開データでテストされており、Illumina MiSeqの94%、Ion Torrent …

エラーコレクションツール FMOC

FMOCは(bwaやbowtieも使っている)FMインデックスを使ったエラー補正の方法論。ハイクオリティなデータセットであるなら、エラー補正能の感度は高いとされる。計算にかかる時間はKarectと同等(karectリンク)。 インストール cent OSに導入した。 本体 Git…