macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2024

(ヒトとマウス)仮説生成のためにクエリに最も類似した遺伝子発現シグネチャーを検索する RummaGEO

Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現…

GO termからタンパク質の機能的要約を生成する GO2Sum

タンパク質の生物学的機能を理解することは、現代の生物学において基本的に重要である。タンパク質の機能を表現するために、制御された語彙であるGene Ontology (GO)は、オープンエンドなテキスト解釈を避け、コンピュータプログラムで扱いやすいため、頻繁…

(ヒト)AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…

メタゲノムアセンブリからのターゲットとするウイルスゲノムの完全性と連続性を向上させる COBRA

ウイルスの研究はメタゲノムシークエンシングを用いて行われることが多いが、ゲノムの不完全性が包括的で正確な解析の妨げとなっている。Contig Overlap Based Re-Assembly (COBRA)は、de Bruijnグラフに基づいてアセンブリのブレークポイントを解決し、コン…

タンパク質言語モデルにより正確で高速なリモート相同性配列検索を行う PLMSearch

Homologous protein searchは、タンパク質のアノテーションや解析に最もよく使われる手法の一つである。構造検索と比較して、配列のみから遠い進化関係を検出することは依然として困難である。ここでは、配列のみを入力とするHomologous protein searchメソ…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

生物医学ナリッジを紐解くためのAI駆動文献リソース PubTator 3.0

PubTator 3.0(https://www.ncbi.nlm.nih.gov/research/pubtator3/)は、タンパク質、遺伝子バリアント、疾患、化学物質のような主要な概念の意味と関係性の検索を提供する最先端のAI技術を用いた生物医学文献リソースである。現在、約3600万件のPubMed abst…

BinDash 2.0

公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…

複雑なメタゲノムおよびメタトランススクリプトームデータをアセンブルする PenguiN

メタゲノミクスは、環境およびヒトに関連する微生物群集を研究するための強力なアプローチであり、特に、それらの形成におけるウイルスの役割を研究するためのアプローチでもある。ウイルスゲノムは、高い突然変異率によるゲノムの多様性のため、メタゲノム…

イルミナFASTQの直感的で効率的な前処理ツール 123FASTQ

次世代シーケンサー(NGS)は遺伝子研究に革命をもたらしたが、生のシーケンサーリードの前処理は依然として重要なステップである。品質管理(QC)とトリミングのための既存のツールには限界があり、ワークフローが分断されている。本稿では、使いやすいイン…

パンゲノムに基づいて構造変異をコールする svarp

現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。した…

(メタ)ゲノムのARGプロファイリングを行うSnakemakeパイプライン ARGprofiler

メタゲノム解析は、抗菌薬耐性遺伝子(ARG)の機能や分布を理解する上で非常に有用である。しかし、研究の比較可能性を確保するために、標準化された再現可能なワークフローが必要である。現在の選択肢には、それぞれ特定の目的を念頭に設計された様々なツー…

複数のラージゲノム間のシンテニーを高速に検出する ntsynt

近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複数種の比較ゲノム…

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024/03/5 更新 2024/04/9 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速に提供する。KEGG…

ProkFunFind

微生物ゲノムの解析は微生物学研究において不可欠なものとなっており、微生物種の機能や進化に関する貴重な洞察を与えている。興味のある遺伝子を特定し、それらの遺伝子に推定アノテーションを付与することは、ゲノム解析の中心的なタスクであり、このタス…

de novo transcriptomeのアイソフォームアセンブラ ClusTrAsT

2024/02/27 追記 信頼できるリファレンスゲノムを持たない生物種のRNAシーケンスデータからのトランスクリプトームアセンブリはde novoで行う必要があるが、de novo methodでは転写産物のアイソフォームを再構築する能力が不十分であることが多いことが研究…

既知のプロテオーム空間から類似したタンパク質構造を発見する AlphaFind

2024/02/026 誤字修正 AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3…

ロングリードを使って既存の(メタ)ゲノムアセンブリの改良(ハプロイドやphased assembly作成など)を行う HairSplitter

#2024/02/22 インストール手順修正 ロングリード・アセンブラは、密接に関連したウイルス株や細菌株を識別する際に問題に直面する。この限界は、多様な菌株が重要な機能的違いを保持している可能性のあるメタゲノム解析の妨げとなっている。本著者らは、菌株…

メタゲノムのリードの発生からbinningまで自動でシミュレーションする MAGICIAN

シーケンスリードからメタゲノムアセンブリゲノム(MAGs)を回収することで、微生物群集とその構成員に関するさらなる洞察が可能になり、場合によっては単一分離ゲノム用に設計されたツールでそのような配列を解析することもできる。結果の質は配列の質に依…

微生物の機能をGO termの形で予測する DeepGOMeta

微生物サンプルの解析は、その多様性と複雑性のために、依然として計算上困難である。ロバストなde novoタンパク質機能予測法の欠如は、これらのサンプルから機能的洞察を導き出すことの難しさを悪化させている。相同性や配列の類似性に依存する従来の予測手…

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な…

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…

膜貫通タンパク質の統合リソース UniTmp

UNIfied database of TransMembrane Proteins (UniTmp)は、膜貫通タンパク質の構造情報を、タンパク質セグメントの局在、タンパク質のトポロジーから膜包埋3次元構造まで、様々なレベルで網羅的に収集した、自由にアクセス可能なリソースである。何万もの新…

in silicoタンパク質間相互作用予測のためのユーザーフレンドリーなパイプライン LazyAF

2024/02/07 タイトル変更 人工知能はタンパク質構造予測の分野に革命をもたらした。しかし、より強力で複雑なソフトウェアが開発されるにつれ、エンドユーザーにとって制限要因になりつつあるのは、能力よりもむしろアクセシビリティと使いやすさである。こ…

大規模微生物データセットのためのスケーラブルなコアゲノムアライメント Parsnp 2.0

2016年以降、NCBIでリファレンスゲノムが利用可能な微生物種の数は3倍以上に増えている。Multiple genome alignmentは、共通の祖先を共有する複数のゲノムのヌクレオチドを特定するプロセスであり、多くの下流の比較解析手法の入力として使用される。Parsnp…

高速・高感度タンパク質配列アノテーション用ソフトウェア nail

新たに塩基配列が決定された生物の多様性は極めて高く、最新の配列データベースは非常に大規模であるため、配列アノテーションにおける感度とスピードという相反するニーズの間で緊張関係が生じている。プロファイル隠れマルコフモデル(pHMM)に基づくアライ…

塩基配列アラインメント用ライブラリ BSAlign

塩基配列アライメントの精度を高めることはゲノム研究において必須の課題である。古典的な動的プログラミングアルゴリズム(Smith-WatermanやNeedleman-Wunschなど)は最適な結果を出すことを保証しているが、その時間の複雑さが大規模配列アライメントへの…

De novoで散在性反復配列を検出する REPrise

真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…

タンパク質配列中の疎水性モジュール性を視覚的に探索するBlobulatorのウェブツール

疎水性残基のクラスターは構造を取っているタンパク質の安定性を促進し、タンパク質の凝集(aggregation)を促進することが知られている。最近の研究で、連続した疎水性残基クラスター("blob "と呼ばれる)を同定することが、内在性無秩序タンパク質(IDP)…

表現学習に基づくビニング法 COMEBin

コンティグビニングは、メタゲノムデータ解析において、同一または近縁ゲノムからのコンティグをグループ化することで重要な役割を果たしている。しかし、既存のビニング手法は、データの種類が多様であることや、異種情報を効率的に統合することが困難であ…