macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

微生物の増殖曲線をインタラクティブに解析するウェブアプリケーション Dashing Growth Curves

微生物の成長を記録し分析することは、ライフサイエンスにおける日常的な作業である。数十から数百の増殖曲線を同時に記録するマイクロプレートリーダーは、この作業にますます使用されるようになり、その迅速で信頼性の高い分析に対する需要が高まっている…

細菌の保存されたタンパク質の割合を計算するためのNextflowパイプライン POCP-nf

シーケンス技術の進歩により、細菌ゲノムは飛躍的に増加しており、確実な分類法が必要とされている。Qin et al. (2014)によって最初に提案されたPercentage Of Conserved Proteins (POCP)は、原核生物の属境界を評価するための貴重な指標である。ここでは、…

メタゲノムアセンブリの高精度なbin refinementツール Binette

2024/04/24 誤字修正 メタゲノム解析は、ショットガンシーケンスによる微生物群集とその個々のメンバーの研究を可能にする。メタゲノム解析に不可欠な段階は、メタゲノムアセンブリゲノム(MAG)の回収である。メタゲノム解析では、シーケンスリードをコンテ…

複雑な反復配列を迅速にインタラクティブなドットプロットで可視化する ModDotPlot

ゲノムの反復配列を分析する一般的な方法は、ドットプロットによって可視化された配列類似性マトリックスを作成することである。StainedGlassのような革新的なアプローチは、ドットプロットを配列同一性のヒートマップとしてレンダリングすることにより、こ…

(ヒトとマウス)仮説生成のためにクエリに最も類似した遺伝子発現シグネチャーを検索する RummaGEO

Gene Expression Omnibus (GEO)は、トランスクリプトミクスやその他のオミックスデータセットのための主要なオープンな生物医学研究リポジトリである。現在、世界中の多くの生物医学研究ラボによって収集された数万件の研究から得られた数百万件の遺伝子発現…

FastQCの高速な代替 Falco

品質管理はシーケンスデータ解析において不可欠な最初のステップであり、品質管理のためのソフトウェアツールはほとんどのシーケンスセンターで標準的なパイプラインに深く浸透している。関連する計算は簡単だが、多くの環境では品質管理に必要な総計算量は…

KEGG KOデータベースでKO IDの機能的情報を取得する

タイトルの通りです。KO (KEGG Orthology) のリストから情報を取得するには、KO (KEGG ORTHOLOGY) Databaseのトップページにアクセスするのが手っ取り早いです。 https://www.genome.jp/kegg/ko.htmlにアクセスする。 KO IDを入力する。手持ちのKO IDのタイ…

NCBI SRAで検索する時のtips

NCBI SRAでは公開されているシークエンシングデータを検索し、必要であればダウンロードできる。 metagenomeと検索してみると4,566,384件ヒットした(2024年4月実行)。 metagenomeと検索したが、16Sがタイトルに含まれるシークエンシングデータがトップヒッ…

WGSやRNA-seqやTarget-captureなどのさまざまなショートリードデータからユーザーが指定した数百〜数千の遺伝子座の同祖配列を抽出し、系統解析に使用可能なMSAを出力する CAPTUS

ターゲットキャプチャー、RNA-Seq、ゲノムスキミング、深く読んだ全ゲノムシーケンスなど、多様なハイスループットシーケンスデータは系統ゲノム解析に利用されているが、このようなミックスされたデータを単一の系統ゲノムデータセットに統合するには、多く…

GO termからタンパク質の機能的要約を生成する GO2Sum

タンパク質の生物学的機能を理解することは、現代の生物学において基本的に重要である。タンパク質の機能を表現するために、制御された語彙であるGene Ontology (GO)は、オープンエンドなテキスト解釈を避け、コンピュータプログラムで扱いやすいため、頻繁…

(ヒト)AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…

メタゲノムアセンブリからのターゲットとするウイルスゲノムの完全性と連続性を向上させる COBRA

ウイルスの研究はメタゲノムシークエンシングを用いて行われることが多いが、ゲノムの不完全性が包括的で正確な解析の妨げとなっている。Contig Overlap Based Re-Assembly (COBRA)は、de Bruijnグラフに基づいてアセンブリのブレークポイントを解決し、コン…

タンパク質言語モデルにより正確で高速なリモート相同性配列検索を行う PLMSearch

Homologous protein searchは、タンパク質のアノテーションや解析に最もよく使われる手法の一つである。構造検索と比較して、配列のみから遠い進化関係を検出することは依然として困難である。ここでは、配列のみを入力とするHomologous protein searchメソ…

タンパク質構造へのバリアントのマッピングのためのコマンドラインツール 3Dmapper

ゲノムデータの解釈は、生物学的プロセスの分子メカニズムを理解する上で極めて重要である。タンパク質構造は、遺伝子をコードする変異体に機能的な背景を与えることにより、この解釈を容易にする上で重要な役割を果たす。しかし、遺伝子とタンパク質の対応…

細菌のpopulation genomicsのためのインタラクティブなビューア Phandango

現在の細菌集団ゲノミクスのデータセットに含まれる豊富なデータを十分に活用するには、数百から数千の分離株における数百万塩基対にわたるさまざまなタイプの解析を統合し、統合する必要がある。現在のアプローチでは、系統学的、疫学的、統計学的、進化学…

生物医学ナリッジを紐解くためのAI駆動文献リソース PubTator 3.0

PubTator 3.0(https://www.ncbi.nlm.nih.gov/research/pubtator3/)は、タンパク質、遺伝子バリアント、疾患、化学物質のような主要な概念の意味と関係性の検索を提供する最先端のAI技術を用いた生物医学文献リソースである。現在、約3600万件のPubMed abst…

オンラインで大規模コピー数多型変異の臨床的解釈を行うために開発された CNV-ClinViewer

病因となるコピー数多型バリアント(CNV)は、希少かつ重篤な疾患の不均一なスペクトルを引き起こす可能性がある。しかし、ほとんどのCNVは良性であり、ヒトゲノムのnatural variationの一部である。CNVの病原性の分類、遺伝子型-表現型解析、治療標的の同定…

ギャップフリーゲノムアセンブリとセントロメリックリピート同定のためのT2Tツールキット quarTeT

2024/04/08 CLI追記 高品質なゲノムは、機能的、進化的、比較ゲノム研究の基礎である。telomere-to-telomere (T2T)アセンブリという新しい時代の到来とともに、複雑な染色体構造や高度な反復配列の解明に注目が集まっている。しかし、T2Tゲノムの自動構築や…

BinDash 2.0

公開データベースに寄託される微生物ゲノムの数が増加しているため、多数のゲノムをゲノム距離という観点から比較することは、ますます困難になってきている。現在では、数百万から数十億のゲノム間のペアワイズ距離を推定する必要がある。このような比較を…

ゲノムからITS配列を抽出する extractITSスクリプト

ITS

ITSx (Bengtsson-Palme et al., 2013)は、ゲノムFastaファイルからITS配列を抽出するためのリファレンスベースのメソッドであるが、非常に時間がかかる。最近、リボソームRNA遺伝子を高速かつ正確に特定するBarrnapが開発された。この2つのソフトウェアを組…

複雑なメタゲノムおよびメタトランススクリプトームデータをアセンブルする PenguiN

メタゲノミクスは、環境およびヒトに関連する微生物群集を研究するための強力なアプローチであり、特に、それらの形成におけるウイルスの役割を研究するためのアプローチでもある。ウイルスゲノムは、高い突然変異率によるゲノムの多様性のため、メタゲノム…

シンプルなパイルアップベースのバリアントコーラー minipileup

レポジトリより Minipileupはシンプルなパイルアップベースのバリアントコーラーである。リファレンスFASTAと1つまたは複数のアライメントBAMを入力とし、アレルカウントとともにマルチサンプルVCFを出力する。Minipileupは、2012年に実装されたhtsbox pileu…

クラスター化された原核生物ウイルスタンパク質ファミリー PHROG

ウイルスは豊富で多様性に富み、先祖伝来の生物学的実体である。その多様性は、遭遇する様々なタンパク質ファミリーの数においても、各タンパク質ファミリーの配列の不均一性においても高い。近年、ウイルスゲノムの塩基配列が解読されつつあり、このような…

イルミナFASTQの直感的で効率的な前処理ツール 123FASTQ

次世代シーケンサー(NGS)は遺伝子研究に革命をもたらしたが、生のシーケンサーリードの前処理は依然として重要なステップである。品質管理(QC)とトリミングのための既存のツールには限界があり、ワークフローが分断されている。本稿では、使いやすいイン…

植物プロテオームの機能的アノテーションを行う mercator4

2019年の論文より すでに200種以上の植物のゲノム配列が発表されており、シーケンス技術の進歩により、この数は急速に増加すると予想されている。新しいゲノムが構築され、遺伝子が同定されると、オントロジーを用いてその推定翻訳産物であるタンパク質の機…

パンゲノムに基づいて構造変異をコールする svarp

現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。した…

ヒトmycobiomeプロファイリングのために真菌の分類学的および機能的データベースを組み込んだパイプライン FunOMIC

細菌マイクロバイオームの解析は日常的に行われるようになったが、真菌マイクロバイオームの解析は、頑健なデータベースとバイオインフォマティック・パイプラインの欠如によって、いまだに妨げられている。ここでは、真菌を同定するための分類学的データベ…

メタゲノムシークエンシングデータから微生物真核生物ゲノムを取り出すパイプライン Eukfinder

微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデ…

(メタ)ゲノムのARGプロファイリングを行うSnakemakeパイプライン ARGprofiler

メタゲノム解析は、抗菌薬耐性遺伝子(ARG)の機能や分布を理解する上で非常に有用である。しかし、研究の比較可能性を確保するために、標準化された再現可能なワークフローが必要である。現在の選択肢には、それぞれ特定の目的を念頭に設計された様々なツー…

複数のラージゲノム間のシンテニーを高速に検出する ntsynt

近年、リファレンスグレードのゲノムアセンブリは大幅に多様化している。このような豊富なデータにより、ゲノム間の配列保存に関する情報を提供し、種の進化に関する重要な知見に貢献するゲノムのシンテニーの検出を含む、スケーラブルな複数種の比較ゲノム…