macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2025-08-01から1ヶ月間の記事一覧

メタゲノムデータから株レベルの多様性を検出する metaSNV

微生物群集の分類学的解析は、種および株レベルで十分に支持されている。しかし、種内には顕著な表現型の多様性が存在し、株は世界的な集団間で広く共有されることは稀である。種と株の間の多様性を層別化することで、「>亜種」と呼ばれる有用な中間層を特定…

タンパク質ファミリー生成のためのスケーラブルなパイプライン proteinfamilies

メタゲノム由来のアミノ酸配列データの増加は、タンパク質の機能、微生物の多様性、進化的関係に対する我々の理解を大きく変えた。しかし、これらのタンパク質の大部分は依然として機能的に未解明である。このような未解明配列を、少数の実験的に機能が確認…

重複遺伝子のコピー数をマッピングデータから推定する parascopy

ヒトゲノムには数百の低コピー反復配列(LCR)が存在するが、コピー数のばらつきが大きく、リードマッピングがあいまいなため、ショートリードシーケンス技術による解析は困難である。LCRに重複する150以上の重複遺伝子のコピー数および配列の変異は、単発性…

ロングリードメタゲノムの解析と評価のためのsnakemakeパイプライン (MAEPLR)

(Prepirntより) メタゲノムアセンブリは、微生物生態系のシーケンシングデータから高品質なゲノムをできるだけ多く再構築することを目的としている。Hi-Fiロングリードなどのアセンブリを容易にする技術的進歩があるにもかかわらず、数百から数千の集団が混…

pplacerDC

系統樹への配列の配置(すなわち、配列を系統樹に挿入する作業)は、メタゲノム解析における分類群の同定や大規模な系統推定など、複数のバイオインフォマティクスパイプラインにおける基本的なステップである。現在最も正確な方法はpplacerで、maximum like…

ロングリードおよびショートリードの RNA-seqから遺伝子アイソフォームを定量する miniQuant

RNAシーケンスは遺伝子アイソフォームの定量に広く応用されているが、複雑な遺伝子のアイソフォームを正確に定量するには、特にショートリードでは限界がある。ここでは、ショートリードでは正確な定量が困難な遺伝子を同定し、これらの領域の定量にロングリ…

HiFiロングリードを使ってゲノムアセンブリの高精度なポリッシングを行う DeepPolisher

正確なゲノムアセンブリは生物学的研究に不可欠であるが、どんなに高品質なアセンブリであっても、それを構築するために使用された技術によって引き起こされたエラーは残る。通常、塩基レベルのエラーは、ドラフトアセンブリにアライメントされたリードを用…

超高速かつ堅牢なMAGのANI比較を行う skani

メタゲノムアセンブリゲノム(MAG)用のシーケンス比較ツールは、大量のデータや低品質のデータに対処するのが困難である。本著者らは、疎な近似アラインメントを用いて平均ヌクレオチド同一性(ANI)を決定する手法であるskani(https://github.com/bluenot…

(GPU対応) 距離ベースの系統解析を超高速に行う DIPPER

距離に基づく手法は、その優れた速度、スケーラビリティ、理論的保証により、さまざまな用途で系統樹を再構築する際によく用いられている。しかし、従来のde novoアルゴリズムは立方時間(cubic time)と二次メモリ(quadratic memory)の計算量に制約されて…

潜在的な病原体の検出を可能にするメタゲノムシーケンスデータ解析パイプライン TaxTriage

TaxTriageは、ショートリードとロングリードの非標的DNAおよびRNAシーケンスデータの両方に対応した、包括的な病原体同定ワークフローである。リードの分類、マッピング、およびデ・ノボアセンブリのアプローチを組み合わせることで、キュレーションされた病…

タンパク質構造のモチーフを超高速に検索する Folddisco

2025/08/17 指摘いただいた部分を修正 大量の構造コレクションから、機能的に重要な短い3Dパターンである類似したタンパク質構造モチーフを検出することは、計算上非常に困難である。そこで本著者らは Folddisco を開発した。Folddisco は、側鎖の向きを含む…

構造ガイド付きアノテーションパイプライン EcoFoldDB-annotate

微生物群集は、地球の健康と生態系プロセスに不可欠な役割を果たしている。高スループットメタゲノムシーケンス技術は、これらの群集の構造と機能に関する前例のない洞察を提供してきた。しかし、既存の配列相同性に基づく手法の感度限界により、メタゲノム…

DEG解析の密度ベースの代替手法 EPCY

高スループットデータから予測可能な遺伝子同定は、バイオメディカル研究における重要な課題である。現在の多くのアプローチは、統計的検定を用いて差異的発現遺伝子(DEG)を選択しているが、これらは生物学的な結果の予測という目的と一致しない可能性があ…

キュレーションされたBUSCOセット(CUSCOs)を使ってCompleasm によるアノテーション精度を向上させる phyca

ユニバーサルシングルコピーオルソログは、ゲノムの最も保存された構成要素である。これらは進化の歴史の研究や新しいアセンブリの評価に日常的に使用されているが、現在の方法は利用可能なゲノムデータからの情報を組み込んでいない。本研究ではまず、進化…

親から子へゲノムのどの部分が受け継がれたかを描画する Pedigree Painter (pepa)

ゲノミクス分野においてデータ可視化はますます重要性を増しており、研究者が世代を超えて遺伝と組み換えのパターンを解明するのを可能にしている。既存のツールの多くは祖先予測に焦点を当てているが、親の遺伝子が子孫のゲノムにどのように寄与するかを分…

メタゲノムの菌叢存在量を株レベルで正確に定量する StrainR2

合成微生物群集は、管理可能なモデルシステムにおいて還元主義的研究を行う機会を提供する。しかし、これらの群集内における高度に類似した株のアバンダンスを推定することは、現在信頼性が低い状態になっている。16S rRNA遺伝子シーケンシングは株レベルで…

検索可能な惑星規模の微生物叢リソース SPIRE

メタオミクスデータは、微生物の多様性と機能に関する情報が公共のレポジトリで指数関数的に蓄積されているが、派生した情報はデータの種類、研究、または採集された微生物環境に応じて孤立した状態で管理されている。ここでは、生息地、地理、系統関係を超…

InterProScan 6

InterProScan 6のβ版が公開されているので使い方を確認します。nextflowに対応し、大規模データにもスケールすることがアナウンスされています。 InterProScan 6 (beta) is here A Nextflow-powered, containerised overhaul for scalable, reproducible protei…

ロングリードからフォールドバックアーティファクトを検出する breakinator

ロングリードシーケンスデータは、大規模で複雑な構造変異の検出に有用だが、技術的なアーティファクトが誤った構造変異の検出を引き起こす可能性がある。解析において、ロングリードデータにおけるフォールドバックアーティファクトの存在に気づいた。その…

ハプロタイプを考慮したロングリードのエラー訂正を行う HALE

ロングリードデータのエラー訂正は、ゲノムアセンブリワークフローにおける重要な初期ステップである。倍数性が1を超える生物の場合、リード訂正時にハプロタイプ固有の変異を保持することが重要である。この課題は、複数のハプロタイプを意識した訂正手法の…

地球の微生物生態系に関するグローバルな動向と洞察を得る MicrobeAtlas

環境DNAシーケンシングは、微生物の多様性と生態系に関する我々の理解に革命をもたらした。現在では、地下深部から山の頂上まで、無数の宿主、生物群、条件を網羅する地球全体のマイクロバイオームの塩基配列が決定されている。しかし、シークエンシングや処…

細菌のSNPおよびSVの検出に適したオールインワンのパイプライン VariantDetective

ゲノム変異は、1塩基ヌクレオチド多型(SNP)から大規模な構造変異(SV)まで、多様な変化のスペクトラムを構成し、細菌の進化と種分化に重要な役割を果たしている。SNPsとSVsを正確に同定することは、その後の進化研究や疫学研究に有益である。本研究では…

Copy number variationを検出する CNVnator

コピー数バリエーション(CNV)を含むゲノム構造変化(SV)は、ヒト個体間のバリエーションに大きく寄与し、SNPと同様にヒト表現型に大きな影響を及ぼすと考えられている(論文より Feuk et al、2006; Sharp et al、2006)。当初、CNVはSNPおよびCGHアレイデ…