macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

超高速でスケーラブルなゲノム検索を行う gsearch

ゲノム検索や分類は、データベース(参照ゲノム)に最もマッチするゲノムを見つけることが一般的であるが、利用可能なデータベースゲノムの数が増加していることや、従来の手法が大規模なデータベースに対してうまくスケールしないという事実により、ますま…

ディープラーニングと隠れマルコフモデルを組み合わせて真核生物の一次遺伝子モデルの予測を行う Helixer

遺伝子構造アノテーションはゲノム配列から生物学的知識を得るための重要なステップであり、現在でもゲノミクスプロジェクトにおいてチャレンジングな課題である。現在のde novo隠れマルコフモデルは、生物学的複雑性をモデル化する能力に限界があり、一方、…

Dorado ベースコーラ―

2025/01/25 追記 レポジトリより Doradoは、Oxford Nanoporeリード用の高性能で使いやすいオープンソースのベースコーラーである。 特徴1つの実行ファイルで、適切なデフォルト設定、ハードウェアの自動検出および設定が可能。 Appleシリコン(M1/2ファミリ…

POD5ツール

マニュアルより POD5は、ナノポアシーケンスデータを簡単にアクセスできる方法で保存するためのファイルフォーマットである。このフォーマットはApache Arrowを用いて格納され、標準的なツールを用いて多くの言語でデータを利用することができる。POD5には、…

複数のゲノムから種を代表する代謝モデルを自動的に再構成する pan-Draft

未培養生物種のゲノムスケール代謝モデル(GEM)を正確に再構築することは、メタゲノムアセンブリゲノム(MAG)に典型的に見られる不完全で断片的な遺伝情報のために困難である。既存のツールは単一ゲノムの配列相同性を利用しているが、本研究ではpan-Draft…

核酸配列の多重整列のための統合リアラインメントアプローチ ReAlign-N

正確な多重配列アライメント(MSA)は、包括的な生物学的配列解析に不可欠である。しかしながら、進化関係が複雑であるため、一般的なアラインメントツールでは十分に対応できない変異がしばしば生じる。この問題を解決するためには、リアラインメントが極め…

メタゲノムデータのLCA推定と分類学的プロファイリングを行う ngsLCA 

環境サンプルから生成されたメタゲノム・データは、現代および古代の生物群集の解析においてますます一般的になってきている。この種のデータから分類学的プロフィールを得るためには、DNA配列を大規模なゲノム参照データベースに対してアラインメントし、各…

広範な生物種のタンパク質アノテーションを評価するツール PSAURON

ゲノムアノテーションにおけるタンパク質コード配列の正確性を評価することは困難な問題であり、広く適用できる解決策がない。この原稿では、タンパク質コード遺伝子アノテーションの品質評価を支援するために開発された新しいソフトウェアツール、PSAURON(…

シングルコマンドで複数ラージゲノムのシンテニーパターンを可視化する ntSynt-viz

近年、染色体スケールのゲノムアセンブリが爆発的に増加しており、複数ゲノムのシンテニーを検出することによる比較ゲノム解析の可能性が大きく広がっている。既存のツールは複数のゲノム間のシンテニーブロックを検出することができるが、テキストベースの…

RNAシーケンス解析のための統合プラットフォーム ExpressAnalyst

非モデル生物種の研究へのRNAシーケンスの応用が進むにつれ、研究者が生物学的および機能的洞察を迅速に明らかにするための、使いやすく効率的なバイオインフォマティクスツールが求められている。我々は、あらゆる真核生物種のRNAシーケンスデータを処理、…

GPUによる高速相同性検索に対応した MMseqs2

急速に増加するタンパク質配列データベースの進化情報を検索するには、常に高速化が必要である。これは、配列のフィルタリングやギャップアラインメントを実行する革新的なアルゴリズムによって達成される。ここでは、8GPUで最大100TCUPSを達成するギャップ…

ONT/PacBioのロングリードのメタゲノムアセンブリとbinningパイプライン mmlong2

mmlong2はNanoporeまたはPacBio HiFiシーケンスデータから原核生物ゲノムを自動回収・解析するゲノム中心のロングリードメタゲノミクスワークフローである。mmlong2ワークフローはmmlongを継承している。mmlong2はロングリード専用のワークフローであり、Nan…

Zetoroのレコードをダウンロードする zenodo_get

zenodo_getは、その名の通り、Zetoroのfrozen dataをダウンロードするコマンド。 インストール #conda (link)mamba install conda-forge::zenodo_get -y#pippip3 install zenodo_get#from githubpip3 install git+https://github.com/dvolgyes/zenodo_get > …

Hi-CデータとロングリードDe Bruijnグラフの統合による効率的なテロメア間ゲノムアセンブリを行う Verkko2

テロメア・ツー・テロメア・コンソーシアムは最近、ヒトゲノムの初の完全な配列を完成させた。最も複雑な繰り返しを解決するために、このプロジェクトは、長くて正確なPacBio HiFiとウルトラロングOxford Nanoporeシーケンスリードの半手動の組み合わせに依…

FASTQ headersのバーコード情報によってdemultiplexingする fastq_demux

fastq_demuxはFASTQヘッダーのバーコードに基づいてillumina fastqをデマルチプレックスするシンプルなプログラム。 インストール condaで環境を作って導入した。 Github mamba create -n fastq_demux python=3 -yconda activate fastq_demux#本体git clone …

MEGA12

Molecular Evolutionary Genetics Analysis (MEGA12)ソフトウェアの第12版を紹介する。この最新バージョンでは、最適な置換モデルの選択と、最尤法(ML法)を用いた系統のブートストラップ検定に必要な計算時間を短縮することで、多くの重要な改良が加えられ…

環状DNA配列の開始位置を指定位置に回転させる Rotate

環状DNA分子(すなわち、ほとんどの細菌、ウイルス、プラスチドゲノム)に由来する配列は、アラインメントを含むほとんどの下流解析において、線状化され、共通の開始位置に回転されることが期待される。これは一般的で簡単な作業であるにもかかわらず、利用…

PacBioのCCSコマンド

マニュアルより サーキュラー・コンセンサス・シーケンス(CCS)解析は、環状化された単一DNA分子(SMRTbell®テンプレート)を複数回「パス」してコンセンサス配列を計算する。CCS解析では、利用可能なパス数を考慮して最適なコンセンサス結果を得るためにAr…

ゲノムのリピート配列を素早く検出するBBtoolsのfindrepeats.sh

https://www.biostars.org/p/483594/より bbmask.shはSTR(リピート長1-15bp)をマスクすることができ、findrepeats.shは様々なタイプの長いリピートや部分的なリピートを見つけて報告またはマスクすることができる。 インストール いくつかのツールはconda…

隠れマルコフモデルを用いてオルソログ推論を改善する OrthoHMM

正確なオルソロジー推定は、比較ゲノム学や系統学にとって不可欠である。しかし、オルソロジーの推定は、古くから分岐している生物の間で顕著な配列の分岐によって困難が伴う。OrthoHMMは、置換行列をパラメータとする隠れマルコフモデルを用いてオルソログ…

バクテリアの661kアセンブリの特徴やメタデータを検索可能なウェブリポジトリ BakRep

細菌は多くの分野において、数え切れないほどの理由から魅力的な研究対象であり、全ゲノムシーケンス(WGS)は微生物学的理解を深めるための最も重要な方法論となっている。一方、費用対効果の高いシーケンシングプラットフォームへのアクセスにより、細菌WG…

ロングリードオーバーラップからゲノムサイズを推定する LRGE

ゲノム解析において正確なゲノムサイズの推定は重要な要素であるが、既存のツールは主にショートリードデータに最適化されている。本著者らは、リード間のオーバーラップ情報を利用して、リファレンスフリーな方法でゲノムサイズを推定する新しいツールであ…

メタゲノム配列プロファイリングのためのMinimizerベースのナイーブベイズ分類器 MNBC

メタゲノムシーケンスリードを分類するための最先端のツールは、迅速かつ正確な選択肢を提供するが、単一のツールで両者を組み合わせることは、常に改善される研究分野である。機械学習ベースのNaïve Bayes Classifier (NBC)アプローチは、サンプル内のすべ…

複雑な構造変異を発見するために特別に設計されたロングリードアライナー VACmap

逆位、重複、その他の医学的に重要な変異は、日常的な遺伝子解析では無視されがちである。リピートの性質と複雑さにより、最新の配列アラインメント手法では正確にアラインメントすることが困難である。本著者らは、この限界が、 linear edits(欠失、挿入、…

HiFiリードを使う複雑な植物オルガネラゲノムのde novoアセンブリツール Oatk

植物オルガネラゲノム、特に複雑な繰り返し構造を持つ巨大なミトコンドリアゲノムは、アセンブリにとって大きな課題である。ロングリードシーケンス技術の登場は、完全長のゲノムを構築する画期的な機会を提供するが、代替構造を解決する問題は依然として残…

高速なトランスクリプトームアノテーションパイプライン TransAnnot

深くシークエンシングされ、de novoアセンブルされたトランスクリプトームのアノテーションは、最新のツールの中には動作が遅く、インストールが難しく、使いにくいものがあるため、依然として難題である。TransAnnotはトランスクリプトームのアノテーション…

細菌ゲノムにコードされた二次代謝産物の多様性を探索するためのウェブリソース BGC Atlas

2024/11/01 タイトル変更 二次代謝産物とは、生物の発生には必須ではないが、生態学的・生理学的に重要な利益をもたらす化合物のことである。これらの化合物は、医療、バイオテクノロジー、農業に応用されている。二次代謝産物の生産は、生合成遺伝子クラス…

AlphaFastPPi

2024/10/31追記、論文引用、11/02追記 プロテオーム全体にわたる新しいタンパク質間相互作用(PPI)を発見することは、新しいタンパク質の機能を理解し、生物内あるいは生物間のシステム特性を解明する上で大きな可能性をもたらす。近年の計算構造生物学、特…

被子植物7種8器官の遺伝子発現アトラス DevSeq

生物種間の表現型の違いはタンパク質コード配列と遺伝子発現の変化によって大きく左右される。ここでは、7種8器官のトランスクリプトームを解析することにより、被子植物のタンパク質コード遺伝子の発現パターンが急速に進化していることを示す。4,500万年以…

ロングリードを完全長ゲノムアセンブリの難しい領域へ正確にマッピングする VerityMap

最近のロングリードシーケンスの進歩により、ヒトゲノムのテロメア間(完全)アセンブリが可能になり、現在では複数のヒトゲノムのハプロタイプを分解した完全アセンブリに貢献している。反復性の高い領域ではリードマッピングツールの精度が低下するため、…