macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

assembly

ゲノムアセンブリの品質、完全性、フェーズ評価を行う Merqury

最近のロングリードアセンブリは、利用可能なリファレンスゲノムの品質と完全性を上回ることが多く、その検証は困難を極めている。ここでは、効率的なk-merセット操作に基づいてリファレンスフリーにアセンブリを評価する新しいツール、Merquryを紹介する。M…

ウィルスゲノムの株を識別したde novoアセンブリを行う Haploflow

ウィルス感染症では、共同感染や宿主内での進化により、複数の関連するウィルス株が存在することが多い。HaploflowはdeBruijnグラフをベースにしたアセンブラで、新しいフローアルゴリズムを用いて混合されたシークエンシングサンプルからウイルスの株レベル…

ロングリードアセンブリのコンティグからクロモソームへの改善を自動で行う ILRA

近年のロングリードシークエンシング技術の進歩は、大規模なコンソーシアムが地球上のすべての真核生物の配列を決定することを可能にするだけでなく、多くの研究室が関心のある種のゲノム配列を決定することも可能にしている。しかし、コンティグの数は染色…

ノイズの多いロングリードからの完全長de novoウイルスハプロタイプ再構築を行う Strainline

非常に多様なウイルスゲノムのハプロタイプを解決したデノボアセンブリは、ウイルス疾患の予防、制御、治療に不可欠である。現在の方法では、比較的精度の高いショートリードデータしか扱えないか、ハプロタイプ特有の変異をコンセンサス配列に折り込んでし…

Minimizer-spaceの de Bruijn graphsを構築し、超高速・低メモリアセンブリを行う rust-mdbg

2021 9/17 論文引用 2023/08/03 更新(metaMDBGとしてまちがって更新していた分を移動) DNAシーケンサーのデータは、リードが長くなり、シーケンスエラー率がますます低くなる傾向にある。ここでは、このようなリードをゲノムにアセンブルする問題に注目し…

MIRAを使って環状MAGを構築する Jorg

メタゲノミクスは、培養されていない微生物や複雑な微生物群集から得られる遺伝情報の研究を促進する。しかし、ほとんどのサンプルは生物の複雑性や株の多様性が高いため、メタゲノミクスデータから完全な微生物ゲノム(ミスアセンブリのない環状)をアセン…

(メタ)ゲノムアセンブリを評価する ALE

研究者は、シングルおよびメタゲノムアセンブリの精度を客観的に評価し、それらに含まれる可能性のあるエラーを自動的に検出するための汎用的な手法を必要としている。現在の手法は、リファレンスを必要としたり、アセンブリ品質の多くの側面のうちの1つしか…

mate-pairs、10x Genomics のbarcoded_pair、ロングリードにも対応したメタゲノムアセンブラ MetaPlatanus

2021 6/18 コマンドの間違い修正 2021 9/28 論文引用 2021/10/21 ツイート追加 HPより メタゲノムデータをデノボで組み立て、配列をクラスタリングすることで、未培養生物を含む複数のドラフトゲノムを構築することができる。この目的のために、本著者らは以…

低コスト(低いカバレッジ)で信頼性の高いハイブリッドゲノムアセンブリを行う LazyB

2021 6/19 タイトル修正 ハイスループットのシーケンスデータからゲノム配列をアセンブルすることは,実際には難しい計算問題であることがわかっている.最近のアプローチでは、安価なショートリードデータ(典型的にはIlluminaテクノロジー[1]を使用)と、P…

De novo遺伝子予測やメタゲノムの機能アノテーションなどに対応したeggNOG-Mapper v2

遺伝子の自動機能アノテーションは、ほとんどのゲノムおよびメタゲノムワークフローにおいて基本的なステップであるにもかかわらず、大規模なスケールでは依然として困難である。本研究では、事前に計算されたorthology assignmentsに基づいて機能アノテーシ…

MIRAアセンブラ

MIRAは、全ゲノムおよびEST/RNASeqプロジェクト用のマルチパスDNA配列データアセンブラ/マッパーである。MIRAは以下の方法で得られたリードをアセンブル/マッピングする。 electrophoresis sequencing(別名サンガーシーケンシング イルミナ(Solexa)シーケ…

原核生物のゲノム構造を利用してリボソーム領域全体をアセンブルする riboSeed

バクテリアのゲノムシーケンスの大部分は、イルミナのショートリードを用いて行われている。しかし、ショートリードだけでは繰り返し領域を解決することが難しいため、クローズドなゲノムを得ることができたのは、シーケンスプロジェクトの約10%に過ぎなかっ…

ドラフトアセンブリからプラスミドを同定する MOB-suite

コストパフォーマンスの高いIllumina社のショートリードシーケンシングにより、大規模な細菌集団遺伝学研究が日常的に行われるようになった。しかし、プラスミドのアセンブリが不完全であるため、プラスミドの含有量を分析することは依然として困難である。…

スモールゲノムのアセンブリ精度を評価する assembly_accuracy

assembly_accuracyはminimap2を使ってアセンブリの精度を評価するツール。相同な配列によって学習したモデルを使って、Nanoporeのシステマティックなエラーを他のニューラルネットワークのツールより高い精度で修正するHomopolishの論文で、アセンブリエラー…

メタゲノムのアセンブリを行う hifiasm-meta

2021 10/19 プレプリント引用 2023/07/06 追記 現在のメタゲノムアセンブラは、ショートシーケンスリードやノイズの多いロングリード用に開発されたもので、正確なロングリードには最適化されていない。ここでは、最近のデータの高い精度を利用した新しいメ…

アセンブリのinterrupted ORFsを評価する ideel

ideelはバクテリア/微生物ゲノムアセンブリの中断されたORFの評価を行うツール。 2023/05/17追記 I've updated the repo to make it easier to install and run:https://t.co/W1DQw9wwGm — Mick W@tson ↙️ (@BioMickWatson) May 16, 2023 導入がより簡単にな…

ハイパフォーマンスなビニングツール BASALT

2021 3/8 追記 メタゲノムビニングは、微生物の詳細な特性評価を可能にする。本研究では、メタゲノムビニングの分解能と効率を向上させるために、BASALT(Binning Across a Series of AssembLies Toolkit)と呼ばれる新しいビニングツールキットを開発した。…

配列をアセンブリグラフにマッピングしてグラフを拡張する minigraph

最近のシーケンシング技術の進歩により、個々のゲノムを参照ゲノムの質に合わせて組み立てることが可能になった。同一種からの複数のゲノムを統合し、統合された表現を生物学者が利用できるようにするにはどうすればよいのかは、依然として未解決の課題であ…

オーバーラップグラフに基づいたde novoゲノムアセンブラ ALGA

2021 1/22 誤字修正 オーバーラップグラフ法に基づいたde novoゲノムアセンブリの手法は非常に少ない。いわゆるde Bruijnグラフアプローチよりも正確な結果が得られると考えられているが、より多くの時間とより多くのメモリを必要とする。オーバーラップグラ…

CoronaSPAdes

2021 2/2 追記 COVID-19 パンデミックを契機に,コロナウイルス研究への関心が高まっている.コロナウイルスデータセットの解析は、リードアラインメントまたはde novo assemblyを用いて完全長ウイルスゲノム配列を得ることから始まる。リードアラインメント…

Linked readを使ってスキャフォールディングを行う ARBitR

ゲノムアセンブリの連続性は、構造的なリアレンジメント、遺伝子の順序、発散したゲノム間のシンテニー、遺伝子バリアント間のリンケージ、ゲノムの反復領域などを解析するために重要である。アセンブリの連続性はスキャフォールディングによって改善するこ…

HiFiロングリードを使ってhaplotype-resolved assemblyを行う Hifiasm

2022/03/26 Hi-Cと組み合わせた論文引用、ツイート追記 2023/02ツイート追記 2024/04/06 追記、help更新 Haplotype-resolved de novo assemblyは、ゲノム配列のバリエーションを研究するための究極のソリューションである。しかし、既存のアルゴリズムでは、…

ハプロイドまたは二倍体ゲノムのためのSVコーラー SVIM-asm

2021 8/14 タイトル修正 ゲノム変異の主要なクラスの一つとして、構造バリアント(SV)は50 bps以上の大きさのゲノムリアレンジメントの多様な範囲から構成されている。ヒトの平均的なゲノムには、シングルヌクレオチドバリアント(Single Nucleotide Varian…

HiFiロングリードの de Bruijn Graphsアセンブラ jumboDB ( La Jolla Assembler)

2020 12/14 間違いを修正 2022/03/01 論文引用 de Bruijnグラフは多くのゲノムアセンブラの基礎となっているが、大規模なゲノムや大きなk-merサイズに対してどのようにしてこれらのグラフを構築するかは不明なままである。このアルゴリズムの課題は、最近、…

kallistoのアセンブリツールabeona

(途中まで省略) アノテーション付きのリファレンスゲノムを持つ生物のハイブリッドシーケンシング研究により、Iso-Seqリードを含める転写産物アイソフォームの選択的スプライシングに対する感度が向上したという証拠が見つかった。(一文省略) Iso-Seqリ…

NCBIのGenBankゲノムアセンブリ (GCA) とRefSeqゲノムアセンブリ(GCF)

2020/11/19 誤字修正 NCBIの識別子がGCA_で始まるゲノムアセンブリはGenBankアセンブリと呼ばれる。GenBankアセンブリは、ユーザーがサブミットしたゲノムアセンブリを意味する。また、識別子がGCF_で始まるゲノムアセンブリは、RefSeqのアセンブリである。…

Viral quasispeciesのアセンブリを行う virus-vg

ウイルスは、遺伝的に関連のある突然変異株のコレクションであるquasispeciesとして宿主に寄生する。Viral quasispeciesのアセンブリは、リードデータから株固有のハプロタイプを再構築することであり、株間の相対的な存在量を予測することは、治療に関連し…

LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正, タイトル修正(”主に植物”を削除) 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレ…

バクテリアの高精度なアセンブリツール Platanus_B

2020 11/6 誤字修正 ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

ロングリードのアラインメントツール minialign

Minialignは、PacBioやNanoporeのロングリード用に設計された、高速で中程度の精度のヌクレオチド配列アライメントツールである。ミニマップオーバーラッパーのミニマイザーベースのインデックス、配列ベースのシードチェイニング、SIMD-パラレルSmith-Water…