macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2024-01-01から1年間の記事一覧

(ヒト)AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…

メタゲノムアセンブリからのターゲットとするウイルスゲノムの完全性と連続性を向上させる COBRA

ウイルスの研究はメタゲノムシークエンシングを用いて行われることが多いが、ゲノムの不完全性が包括的で正確な解析の妨げとなっている。Contig Overlap Based Re-Assembly (COBRA)は、de Bruijnグラフに基づいてアセンブリのブレークポイントを解決し、コン…

タンパク質言語モデルにより正確で高速なリモート相同性配列検索を行う PLMSearch

Homologous protein searchは、タンパク質のアノテーションや解析に最もよく使われる手法の一つである。構造検索と比較して、配列のみから遠い進化関係を検出することは依然として困難である。ここでは、配列のみを入力とするHomologous protein searchメソ…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…

生物医学ナリッジを紐解くためのAI駆動文献リソース PubTator 3.0

PubTator 3.0(https://www.ncbi.nlm.nih.gov/research/pubtator3/)は、タンパク質、遺伝子バリアント、疾患、化学物質のような主要な概念の意味と関係性の検索を提供する最先端のAI技術を用いた生物医学文献リソースである。現在、約3600万件のPubMed abst…

オンラインで大規模コピー数多型変異の臨床的解釈を行うために開発された CNV-ClinViewer

病因となるコピー数多型バリアント(CNV)は、希少かつ重篤な疾患の不均一なスペクトルを引き起こす可能性がある。しかし、ほとんどのCNVは良性であり、ヒトゲノムのnatural variationの一部である。CNVの病原性の分類、遺伝子型-表現型解析、治療標的の同定…

ギャップフリーゲノムアセンブリとセントロメリックリピート同定のためのT2Tツールキット quarTeT

2024/04/08 CLI追記 高品質なゲノムは、機能的、進化的、比較ゲノム研究の基礎である。telomere-to-telomere (T2T)アセンブリという新しい時代の到来とともに、複雑な染色体構造や高度な反復配列の解明に注目が集まっている。しかし、T2Tゲノムの自動構築や…

BinDash 2.0

公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…

ゲノムからITS配列を抽出する extractITSスクリプト

ITS

ITSx (Bengtsson-Palme et al., 2013)は、ゲノムFastaファイルからITS配列を抽出するためのリファレンスベースのメソッドであるが、非常に時間がかかる。最近、リボソームRNA遺伝子を高速かつ正確に特定するBarrnapが開発された。この2つのソフトウェアを組…

複雑なメタゲノムおよびメタトランススクリプトームデータをアセンブルする PenguiN

メタゲノミクスは、環境およびヒトに関連する微生物群集を研究するための強力なアプローチであり、特に、それらの形成におけるウイルスの役割を研究するためのアプローチでもある。ウイルスゲノムは、高い突然変異率によるゲノムの多様性のため、メタゲノム…

シンプルなパイルアップベースのバリアントコーラー minipileup

レポジトリより Minipileupはシンプルなパイルアップベースのバリアントコーラーである。リファレンスFASTAと1つまたは複数のアライメントBAMを入力とし、アレルカウントとともにマルチサンプルVCFを出力する。Minipileupは、2012年に実装されたhtsbox pileu…

クラスター化された原核生物ウイルスタンパク質ファミリー PHROG

ウイルスは豊富で多様性に富み、先祖伝来の生物学的実体である。その多様性は、遭遇する様々なタンパク質ファミリーの数においても、各タンパク質ファミリーの配列の不均一性においても高い。近年、ウイルスゲノムの塩基配列が解読されつつあり、このような…

イルミナFASTQの直感的で効率的な前処理ツール 123FASTQ

次世代シーケンサー(NGS)は遺伝子研究に革命をもたらしたが、生のシーケンサーリードの前処理は依然として重要なステップである。品質管理(QC)とトリミングのための既存のツールには限界があり、ワークフローが分断されている。本稿では、使いやすいイン…

植物プロテオームの機能的アノテーションを行う mercator4

2019年の論文より すでに200種以上の植物のゲノム配列が発表されており、シーケンス技術の進歩により、この数は急速に増加すると予想されている。新しいゲノムが構築され、遺伝子が同定されると、オントロジーを用いてその推定翻訳産物であるタンパク質の機…

パンゲノムに基づいて構造変異をコールする svarp

現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。した…

ヒトmycobiomeプロファイリングのために真菌の分類学的および機能的データベースを組み込んだパイプライン FunOMIC

細菌マイクロバイオームの解析は日常的に行われるようになったが、真菌マイクロバイオームの解析は、頑健なデータベースとバイオインフォマティック・パイプラインの欠如によって、いまだに妨げられている。ここでは、真菌を同定するための分類学的データベ…

メタゲノムシークエンシングデータから微生物真核生物ゲノムを取り出すパイプライン Eukfinder

微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…

(メタ)ゲノムのARGプロファイリングを行うSnakemakeパイプライン ARGprofiler

メタゲノム解析は、抗菌薬耐性遺伝子(ARG)の機能や分布を理解する上で非常に有用である。しかし、研究の比較可能性を確保するために、標準化された再現可能なワークフローが必要である。現在の選択肢には、それぞれ特定の目的を念頭に設計された様々なツー…

複数のラージゲノム間のシンテニーを高速に検出する ntsynt

近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複数種の比較ゲノム…

ブルームフィルタを用いて低メモリ使用量且つ高速にsamの重複マークを行う streammd

重複テンプレートの同定は、バルクシークエンシング解析における一般的な前処理ステップである。streammdは、Picard MarkDuplicatesの出力を忠実に再現しながら、大幅に高速化し、SAMBLASTERよりはるかに少ないメモリで動作する。streammdは、GitHub https:/…

細菌の近傍に存在するタンパク質ファミリーを調べる ProFaNA

機能的に関連する遺伝子は、特に原核生物において、ゲノム上でしばしば近傍にグループ化されることがよく知られている。この現象が起こる進化的メカニズムは様々であるが、未知の遺伝子の機能を予測するのに利用できる。ここでは、現在利用可能な膨大なゲノ…

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024/03/5 更新 2024/04/9 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速に提供する。KEGG…

ANIについて

2024/03/04 誤字修正、03/05 引用追加、文章校正 このブログでこうゆう話を書くのは珍しいのですが、今日は自分も良く使っているANIについてなるべく分かりやすく説明します。 2つの菌のゲノムDNA間を比較するAverage Nucleotide Identity (ANI) 比較は、we…

ProkFunFind

微生物ゲノムの解析は微生物学研究において不可欠なものとなっており、微生物種の機能や進化に関する貴重な洞察を与えている。興味のある遺伝子を特定し、それらの遺伝子に推定アノテーションを付与することは、ゲノム解析の中心的なタスクであり、このタス…

バクテリアのインテグロンを同定する IntegronFinder2

2024/02/28 コマンド修正 インテグロンは柔軟な遺伝子交換プラットフォームであり、アクセサリー遺伝子をコードする複数のカセットを含み、その順序は特定のインテグラーゼによってシャッフルされる。移動性遺伝要素に組み込まれたインテグロンには、しばし…

抗生物質耐性遺伝子、インテグロン、トランスポゾンを同定するアノテーションサーバー BacAnt

細菌の全ゲノムシークエンシング(WGS)は診断検査における日常的な手法となっている。WGSの臨床的に最も有用な利点の1つは、細菌配列中の抗菌薬耐性遺伝子(ARG)や移動性遺伝要素(MGE)を予測できることである。これにより、このような遺伝的特徴を包括的…

細菌ゲノムに組み込まれたプロファージ領域を見つける PhageBoost

2024/02/29 コマンド修正 プロファージは細菌ゲノムに組み込まれたファージであり、細菌生物学の多くの側面を理解する鍵となる。プロファージは非常に多様であるため、配列の類似性を利用して検出することは困難である。本著者らは、新規プロファージの発見…

de novo transcriptomeのアイソフォームアセンブラ ClusTrAsT

2024/02/27 追記 信頼できるリファレンスゲノムを持たない生物種のRNAシーケンスデータからのトランスクリプトームアセンブリはde novoで行う必要があるが、de novo methodでは転写産物のアイソフォームを再構築する能力が不十分であることが多いことが研究…

既知のプロテオーム空間から類似したタンパク質構造を発見する AlphaFind

2024/02/026 誤字修正 AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3…