macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

evaluation tool

review article要約 バクテリアのバリアントコール評価のベストプラクティス

Best practices for evaluating single nucleotide variant calling methods for microbial genomicsより https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4493402/ シークエンシング技術の革新により、生物学の研究者はbiologicalなシステムの理解を大幅に進…

ラージゲノムにも対応したdot plot解析ツール D-GENIES

2023/12/01 追記 ドットプロットは、2組のシーケンスを視覚的に比較するために一般的に使用される。それらは挿入、欠失、逆位またはリピートを容易に理解できる方法で提示する。可変の線の太さ、線の形または色を使用して類似点の差異を表すことができる。産…

メタゲノムデータの平均ゲノムサイズや総カバレッジを推定する MicrobeCensus

ショットガンメタゲノミクスは、人体や環境の微生物群集の機能的構成を特徴づけるためにますます使用されてきている[論文より ref.1-4]。これらの研究の共通の目標は、遺伝子ファミリー存在量を定量化し、環境、宿主の表現型、または実験条件の間で豊富さが…

複数bamを様々な評価指標で分析して結果を統合する picardmetrics

2020 8/24 タイトル修正 picardmetricsはKamil Slowikowskiさんが公開されたPicard(ピカード)Toolsのbamを分析する各コマンドを走らせ、その結果を統合してくれるシェルスクリプト。 コマンド https://slowkow.github.io/picardmetrics/ インストール ubun…

SVシミュレーションや、SVのマージ、レポート生成ができる SURVIVOR

2019 10/29 インストール修正 2020 1/6 追記 一塩基多型(SNP)、小さな挿入 - 欠失事象(indels)、トランスポゾン挿入および大きな構造変化(SV)を含む、様々な遺伝的変化が生物種に影響し得る。欠失、重複、挿入、逆位および転座を含むSVは、タイピング…

deeptools

deeptools2のペーパーより ハイスループットシーケンスデータのデータの分析は、引き続き研究者にとって大きな課題となっている。ハイスループットシーケンシングを用いた実験の多様性が急速に高まっているため、分析パッケージの数が増加し、洞察に富んだ視…

(RNA seq) 複数のde novoアセンブリ結果をマージし、冗長なcontigを除く DRAP

第二世代シークエンシングプラットフォームは、多種多様な種および条件の遺伝子発現を分析することを可能にする、多量の転写産物のシーケンスデータの生成を可能にした。リファレンスゲノム配列を欠く種については、現在の古典的なプロセシングパイプライン…

トランスクリプトームのblast比較結果を統合し、ベン図を描く VennBLAST

ハイスループットシークエンシングは広範な技術となり、進化的研究を含む様々な研究分野でアクセス可能となっている。ゲノムが利用できない生物の転写産物をシーケンスし、注釈を付ける能力は、分子進化の分野における生物学者、特に非モデル生物を含むルー…

K-mer分析ツール KAT

2019 5/15 リンク、condaインストール追加 2019 5/16 タイトル修正 2020 9/27 help更新 ハイスループットの全ゲノムショットガン(WGS)データセットの迅速な解析は、大きなサイズが生み出す複雑さのためにチャレンジングである(Schatz et al、2012)。 WGS…

シーケンスデータからk-merスペクトラム分析を行う GenomeScope

2019 3/5 インストール追記、コマンドのわかりにくい部分を修正 2019 5/14 リンク追加 2019 5/27 docker追加、オプションヘルプ追加 2019 8/27 twitter追記 ハイスループットシーケンシングにより、新規ゲノムのシーケンシングが日常的に可能になっている。…

構造多型部位のマッピング状況を出力する samplot

2020 9/26 Preprint引用、condaによるインストールコマンド、help追記 2021 5/27 論文追記 構造変異(SV)検出において、視覚的な検証は偽陽性を排除するために不可欠なステップである。著者らは、ショートリード、ロングリード、フェーズドリードを含む、複…

アセンブル結果をリファレンスと比較して構造変異などを可視化するAssemblytics

デノボゲノムアセンブリは、ロングリードシーケンシングおよびマッピングの進歩により、大きなゲノム上でますます扱いやすくなってきており、生物の系統樹全体にわたるより高品質でより数の多いリファレンスがもたらされている(Lee et al、2014; Roberts et…

アセンブリ結果を評価する CGAL

ゲノムアセンブリは、元のゲノムを再構成するために、ショットガン配列決定によって産生されたDNA配列の断片を合併するプロセスである。アセンブルの問題は、多数の式からNP困難であることが知られており[論文より ref.1〜3]、またシーケンシングエラー、実…

メイトペア情報を使いスキャホールドの誤りを検出する NxRepair

ゲノムのde novoアセンブリの一般的な方法は、de Bruijnグラフ(論文より Compeau、Pevzner&Tesler、2011)の構築に基づく。最も単純なケースでは、グラフはシングルエンドリードから構成されるが、シングルエンドのリードだけでは、de Bruijnグラフをもつ…

PCR duplicationの割合を推定する PCRduplicates

PCRはNGSのライブラリー調製プロトコールにおける重要なステップである。 PCR前のライブラリー中のユニークなDNA鋳型分子の数が少ない場合、またはユニークなDNAフラグメントを減らすライブラリー調製過程がある場合、いくつかのフラグメントは複数回シーケ…

RNA seqのクオリティコントロールツール RSeQC

2019 12/2 インストール追記 2020 12/9 誤字修正, help追加 2022 インストール手順追記 RSeQCはクオリティ、GCバイアス、PCRバイアス、ヌクレオチド組成バイアス、シーケンスのデプス、strandの特異性、カバレッジ均一性およびゲノムのfeature上のカバレッジ…

RNA seqのクオリティチェックツール QoRTs

2020 12/9 condaインストール追記、help更新 RNA-Seqは特定のバイアス、エラー、アーチファクトを受けやすく、堅牢で包括的なクオリティコントロールが必要である。QoRTsは幅広いクオリティ分析マトリクスを出力する多機能ソフトウェアパッケージ。様々な角…

イルミナのランディレクトリを分析する CheckQC

CheckQCはイルミナのdemultiplexした後のランフォルダを分析し、これ以上の解析に意味が必要か、意味がないか素早く調べることができるツール。基準を満たさないメトリックについての警告を返し、ランパフォーマンスを迅速に評価する。既存のワークフローに…

シングルセルシーケンスのカバレッジバイアスを見積もる Preseq

単一細胞レベルで変異を調べるには、単一細胞のシーケンス決定技術が必要になる。このシングルセルシーケンスの技術は、腫瘍細胞のシーケンスや未培養の細菌集団の細胞の多様性を調べるような研究にも用いられてきた。また、着床前遺伝子診断などに利用して…

ペアエンドリードを使いミスアセンブリを検出する misFinder

ミスアセンブルを検出するツールにはQuest、GAGEなどがあるが、これらのツールはミスアセンブルとリファンレスの違いを区別せず全て報告する。そのため、ミスアセンブルのみを検出するには通常さらなる工夫が必要になる。 一方、CGALやALE、REAPRはDe novoの…

リードをマッピングしてゲノムアセンブリの精度を評価する REAPR

2021 7/11 link追加 REAPRは、リファレンスゲノムを使わずゲノムアセンブリの精度を評価するツール。カバレッジおよびインサートサイズの分布などのマッピング情報を分析して、ミスアセンブリの位置が特定される。 誤ったアセンブリはレポートされ、新しいア…

de novo transcriptome assembliesを評価する rnaQUAST

2020 2/3 インストール追記、実行例追記 2020 8/13 インストール追記 rnaQUASTはde novo transcriptomeのアセンブルパフォーマンスを比較するツール。リファレンスゲノムやtranscriptsのカタログにアセンブルした配列をアライメントし、様々な統計データをPD…

RNA seqのクオリティチェックツール QoRTs

RNA-Seqは特定のバイアス、アーティファクトを受けやすく、 堅牢で包括的なクオリティチェックが重要になる。とくにサンプル調製、ライブラリー作成、またはシークエンシングのエラーは、 予期せぬアーティファクト、バイアスを引き起こす。適切に処理できる…

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MultiQC

2019 1/16 誤字修正および対応ツール情報更新、12/29 ツイート追加 2020 1/17 condaインストール追記、4/19 説明追記、5/25 ツイート追記 2023/12/20ツイート追記 今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり…

Feature response courveによりアセンブルを評価するFRC_align

アセンブルのパフォーマンスを表す指標として N50やコンティグの数などがよく用いられているが、アセンブルの精度はこの値には反映されていない。FRC_alignは、Feature response courve: FRC(FRCを使ったアセンブル評価)を計算出力することで、異なるツー…

DNAでもRNAでも使える、複数サンプルのマッピングを同時比較できるGUIツール Qualimap2

2019 9/8 インストール追記 公式サイト http://qualimap.bioinfo.cipf.es ユーザーマニュアル http://qualimap.bioinfo.cipf.es/doc_html/index.html ワークフロー http://qualimap.bioinfo.cipf.es/doc_html/workflow.html CUI環境でのラン。 http://qualim…

de novo transcriptomeのアセンブル評価ツール RSEM-EVAL(DETONATEパッケージ)

2018、8/9 誤字脱字修正 2021 12/24 タイトル変更 RNAシーケンシング(RNA-Seq)技術は、トランスクリプトームの大規模分析を可能にすることによって、ゲノムの配列がまだ決定されていない種の研究に革命をもたらしている。このようなトランスクリプトームを…

RNAseqのロングリードのアライメントの評価ツール RNAseqEval

ロングリードを使ったRNA seqはまだ情報が少ない。Evaluation of tools for long read RNA-seq splice-aware alignment.というタイトルのこの論文では、PacBioとONT Minionを使い、エラーの多いロングリードがアライナーの種類によってどう扱われれるのか、…

エラーコレクションツール karect

2019 9/8 インストール追記 De novo assembly時、シーケンスエラーを間違ってscaffoldsに組み込んでしまうと、dead-endのグラフができたり、false positiveの分岐が生じたり、あるいはキメラのパスができてしまう可能性がある。そのため、アセンブル前にエラ…

異なるk-merの割合を計算してエラー率推定やゲノムサイズ推定を行う KmerStream

2019 5/27インストール方法追記 2019 7/29タイトル修正 KmerStreamは異なるk-merの数を計算する方法論。シーケンス業者のクオリティに依存せず純粋にk-merの頻度からエラー率を見積もることができるため、上手く使えばシーケンスの品質管理などに使用するこ…