macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

evaluation tool

複数のゲノムアセンブリにおけるBUSCO解析結果を比較し、アセンブリの完全性を一貫性のある方法で評価する BUSCOMP

レポジトリより BUSCOMPはBUSCOの非決定論的限界を克服するために設計されている。アセンブリから完全なBUSCOの冗長でない最大集合をコンパイルし、この集合を用いて同じゲノムの異なるアセンブリ間の完全性の "真の "比較を予測可能な挙動で提供する。各BUS…

各KEGGパスウェイモジュールの完全性を計算する kegg-pathways-completeness tool

2025/05/05 追記 2025/05/06 追記 レポジトリより このkegg-pathways-completenessというツールは、与えられたKEGGオルソログ(KO)の集合に対して、その有無に基づいて各KEGGパスウェイモジュールの完全性を計算する。このツールの現在のバージョンは、495のK…

推定ウイルスコンティグの完全性と汚染を評価する ViralQC

ウイルスは地球上で最も豊富な生物学的存在であり、多様な生態系において重要な役割を果たしている。さまざまな環境におけるウイルスのカタログ化は、その特性や機能を理解するために不可欠である。メタゲノムシーケンシングは、宿主や環境サンプルからウイ…

広範な生物種のタンパク質アノテーションを評価するツール PSAURON

ゲノムアノテーションにおけるタンパク質コード配列の正確性を評価することは困難な問題であり、広く適用できる解決策がない。この原稿では、タンパク質コード遺伝子アノテーションの品質評価を支援するために開発された新しいソフトウェアツール、PSAURON(…

T2Tゲノムアセンブリの評価ツール Genome Continuity Inspector (GCI)

最近のロングリードシーケンス技術の進歩により、高品質なゲノムアセンブリの作成が大幅に容易になった。テロメアtoテロメアなギャップレス(T2T)アセンブリは、ゲノムアセンブリの新たなゴールデンスタンダードとなっている。最近、T2Tレベルのリファレン…

遺伝子アノテーションの品質評価を行う OMArk

多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…

オルソログベンチマークサービス Quest for Orthologs

Orthology Benchmark Service (https://orthology.benchmarkservice.org)は、Quest for Orthologsコンソーシアムによってサポート・維持されている、orthology inference 評価のゴールドスタンダードである。これは、標準的なデータセットと共通の手順で、既…

ゲノムアセンブリを評価する WebQUAST

ゲノミクス研究において、適切なゲノムアセンブリを選択することは、ダウンストリーム解析の鍵となる。しかし、多くのゲノムアセンブリツールが存在し、その実行パラメータは非常に多様であるため、このタスクは困難である。また、既存のオンライン評価ツー…

(主にヒトRNA-seq)大規模RNA-seqデータセットからデータセットに関する情報を提供する Kmerator Suite

一般に公開されている膨大な数のRNA-sequencing (RNA-seq) ライブラリは、組織における既知または新規の転写産物の発現を定量化するための機能情報の宝庫である。しかし、転写産物の定量は、多くの計算資源と処理時間を必要とするアライメント手法に依存する…

機械学習を用いた微生物ゲノム品質の迅速で正確かつスケール可能な評価ツール CheckM2

2023/07/28 論文引用 2024/04/16 インストール追記 DNA シーケンスとバイオインフォマティクスの進歩により、メタゲノム解析データからの微生物ゲノムの回収率は飛躍的に向上した。メタゲノム解析で得られたゲノムの品質を評価することは、解析に先立つ重要…

アセンブリの内容をどれだけ反映したコールであるかに基づいてSVコールを評価する TT-Mars

大規模なシークエンス研究により、一般的な構造バリアント(SV)やレアバリアントなどの遺伝子バリアントと形質や疾患との関連付けが可能になった。SVには、欠失、挿入、重複、50塩基以上のリアレンジメントが含まれ、これらは遺伝的多様性、発達障害、ガン…

MAGとSAGのゲノム品質を評価する MDMcleaner 

2022/05/21 ツイート追記 現在、環境微生物の大部分は未培養のままであり、「微生物ダークマター」(MDM)と呼ばれている。そのため、これらの微生物に関するゲノム解析は、シングルセルオミクスやメタゲノム解析などの培養に依存しないアプローチに限定され…

コアゲノム推定にメタゲノムアセンブルゲノムを活用するためのロバストなベイズアプローチ mOTUpan

2022/08/20 論文引用 近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム(MAG)やシングルセルアセンブルゲノム(SAG)を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このよう…

マッピングのローレンツ曲線を生成する bam-lorenz-coverage

Githubより bam-lorenz-coverageはBAMファイルから直接ローレンツプロットやカバレッジプロットを簡単に作成できるフリーソフトです。また、テーブルをテキスト文書として出力することができるので、カスタムプロットを作成することも可能です。また、特定の…

bowtie2を使ってアセンブルした配列を評価する

bowtie2はマッピング結果の要約統計を標準エラー出力として報告する。Trinityのwikiでは、これを利用してde novo transcriptome assemblyを評価する流れがまとめられている。 RNA Seq Read Representation by Trinity Assembly · trinityrnaseq/trinityrnase…

機械学習を利用してゲノムアセンブリ品質を総合的に評価する EvalDNA

興味のある生物に対して最も完全で、継続的で、正確なアセンブリを選択するためには、アセンブリの包括的な品質評価が必要である。本著者らは、Evaluation of De Novo Assemblies (EvalDNA)という新しいツールを開発した。このツールは、教師付き機械学習を…

ロングリードを使ったゲノムアセンブリの評価とミスアセンブリ修正を行う Inspector

全ゲノムde novoアセンブリはリファレンスゲノムを持たない種の研究には不可欠であり、リファレンスゲノムを持つ種の遺伝的変異の全容を明らかにするためにも重要である。ロングリードシーケンシング技術の進歩により、ロングリードはより正確に、より長く、…

Hi-Cシーケンスデータのリファレンスベースもしくはリファレンスフリーの品質評価ツール qc3C

Hi-Cは、DNA分子間の空間的な相互作用をゲノム全体で捉えることができるハイスループットシーケンシングを可能にするサンプル調製法である。この技術は、クロマチンの3次元構造解析、大規模ゲノムアセンブリのスキャフォールド構築、最近ではメタゲノムアセ…

タンデムリピートとその周辺のリードアラインメントをハプロタイプに分解して可視化する REViewer

2021 10/27、20/28追記 ショートタンデムリピート拡張は、家族性筋萎縮性側索硬化症やハンチントン病をはじめとする多くの神経遺伝性疾患の原因となっている。最近では、全ゲノムやエクソームのシーケンスデータからリピートの拡大を同定する方法が複数開発…

アセンブルされた微生物ゲノムのクオリティ評価を行う miComplete

2022/03/18 インストール手順追記 ハイスループットシーケンスの開発により、大規模なシーケンスプロジェクトが手頃な価格になり、可用性がますます向上している。膨大な量のメタゲノムデータが生成され、未培養微生物から数千のmetagenome-assembled genome…

メタゲノムアセンブリのbin配列を評価する metashot/prok-quality

メタゲノムシークエンスにより、大規模なゲノムの同定とゲノムの特性解析が可能になる。Binningとは、未知の細菌や古細菌の配列断片(メタゲノムコンティグ)の複雑な混合物からゲノムを回収するプロセスである。メタゲノムから回収したゲノムの品質を評価す…

ゲノムアセンブリの品質、完全性、フェーズ評価を行う Merqury

最近のロングリードアセンブリは、利用可能なリファレンスゲノムの品質と完全性を上回ることが多く、その検証は困難を極めている。ここでは、効率的なk-merセット操作に基づいてリファレンスフリーにアセンブリを評価する新しいツール、Merquryを紹介する。M…

パンゲノム解析によってアノテーション情報の改善を試みる panaroo

Preprintより 原核生物のゲノム進化は、親から子への遺伝物質の垂直伝達と生物間の水平遺伝子伝達の両方によって引き起こされる(ref.1)。細菌の大規模なシーケンシング研究から、種内ゲノム含有量に大規模な違いが生じることが確認されている(ref.2)。こ…

メタゲノムのハイブリッドアセンブリとビニングのためのベスト・プラクティス・パイプライン nf-core/mag

2023/03/02 論文引用 ショットガンメタゲノムデータを解析することで、微生物群集に関する貴重な知見が得られると同時に、個々のゲノムレベルでの解決が可能となる。しかし、完全なリファレンスゲノムが存在しない場合、シークエンスリードからメタゲノムア…

BUSCO v5

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記、06/10 誤字修正 2025/02/14 3.8.2に変更 ゲノムデータやメタゲノムデータの品質を評価する方法は、…

(メタ)ゲノムアセンブリを評価する ALE

研究者は、シングルおよびメタゲノムアセンブリの精度を客観的に評価し、それらに含まれる可能性のあるエラーを自動的に検出するための汎用的な手法を必要としている。現在の手法は、リファレンスを必要としたり、アセンブリ品質の多くの側面のうちの1つしか…

スモールゲノムのアセンブリ精度を評価する assembly_accuracy

assembly_accuracyはminimap2を使ってアセンブリの精度を評価するツール。相同な配列によって学習したモデルを使って、Nanoporeのシステマティックなエラーを他のニューラルネットワークのツールより高い精度で修正するHomopolishの論文で、アセンブリエラー…

アセンブリのinterrupted ORFsを評価する ideel

2025/01/15追記 ideelはバクテリア/微生物ゲノムアセンブリの中断されたORFの評価を行うツール。 2023/05/17追記 I've updated the repo to make it easier to install and run:https://t.co/W1DQw9wwGm — Mick W@tson ↙️ (@BioMickWatson) May 16, 2023 導…

RNA-SeQC 2

サンプルの品質は、サンプルの保管、抽出、シーケンスプロトコルによって影響を受けるため、シーケンス後の品質管理は、RNAシーケンス(RNA-seq)データの生成と解析に不可欠な要素である。RNA-seqは、数百から数万サンプルの規模のコホートに適用されること…

原核生物のゲノムアセンブリでキメラや汚染を評価する GUNC

2021 1/18 解析例追加、6/15 論文引用 2022/06/16 コマンド更新、10/13 追記 2024/05/08 追記 ゲノムは原核生物の系統の遺伝的青写真であり、現在進行中の微生物世界のセンサスの中心にある微生物学の基本単位であり、微生物の生態と進化の研究に不可欠なも…