macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアのインテグロンを同定する IntegronFinder2

2024/02/28 コマンド修正 インテグロンは柔軟な遺伝子交換プラットフォームであり、アクセサリー遺伝子をコードする複数のカセットを含み、その順序は特定のインテグラーゼによってシャッフルされる。移動性遺伝要素に組み込まれたインテグロンには、しばし…

抗生物質耐性遺伝子、インテグロン、トランスポゾンを同定するアノテーションサーバー BacAnt

細菌の全ゲノムシークエンシング(WGS)は診断検査における日常的な手法となっている。WGSの臨床的に最も有用な利点の1つは、細菌配列中の抗菌薬耐性遺伝子(ARG)や移動性遺伝要素(MGE)を予測できることである。これにより、このような遺伝的特徴を包括的…

細菌ゲノムに組み込まれたプロファージ領域を見つける PhageBoost

2024/02/29 コマンド修正 プロファージは細菌ゲノムに組み込まれたファージであり、細菌生物学の多くの側面を理解する鍵となる。プロファージは非常に多様であるため、配列の類似性を利用して検出することは困難である。本著者らは、新規プロファージの発見…

de novo transcriptomeのアイソフォームアセンブラ ClusTrAsT

2024/02/27 追記 信頼できるリファレンスゲノムを持たない生物種のRNAシーケンスデータからのトランスクリプトームアセンブリはde novoで行う必要があるが、de novo methodでは転写産物のアイソフォームを再構築する能力が不十分であることが多いことが研究…

既知のプロテオーム空間から類似したタンパク質構造を発見する AlphaFind

2024/02/026 誤字修正 AlphaFindは、AlphaFold DBの全構造セットにおいて、構造に基づいた高速検索を提供するウェブベースの検索エンジンである。他のタンパク質処理ツールとは異なり、AlphaFindは3次構造に完全に焦点を当てており、各タンパク質鎖の主要な3…

ロングリードを使って既存の(メタ)ゲノムアセンブリの改良(ハプロイドやphased assembly作成など)を行う HairSplitter

#2024/02/22 インストール手順修正 ロングリード・アセンブラは、密接に関連したウイルス株や細菌株を識別する際に問題に直面する。この限界は、多様な菌株が重要な機能的違いを保持している可能性のあるメタゲノム解析の妨げとなっている。本著者らは、菌株…

メタゲノムのリードの発生からbinningまで自動でシミュレーションする MAGICIAN

シーケンスリードからメタゲノムアセンブリゲノム(MAGs)を回収することで、微生物群集とその構成員に関するさらなる洞察が可能になり、場合によっては単一分離ゲノム用に設計されたツールでそのような配列を解析することもできる。結果の質は配列の質に依…

微生物の機能をGO termの形で予測する DeepGOMeta

微生物サンプルの解析は、その多様性と複雑性のために、依然として計算上困難である。ロバストなde novoタンパク質機能予測法の欠如は、これらのサンプルから機能的洞察を導き出すことの難しさを悪化させている。相同性や配列の類似性に依存する従来の予測手…

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な…

ロングリードのハイブリッドエラー訂正を行う HERRO

20240419 タイトル修正 注;論文のタイトルにはHEROと書かれてますが、レポジトリではHERROとなっています。ここではHERROで統一します。 一般的に優れているが、次世代シーケンシング(NGS)リードを用いた第3世代シーケンシング(TGS)リードのエラーを修…

複数のプロファイルHMMを1つに統合する HMMerge

過去数十年の間に多重配列アライメントのための手法開発が進歩したにもかかわらず、配列の長さが大きく異なるデータセットのアライメントは、特に入力配列に非常に短い配列(シークエンシング技術、または進化の過程で大きく欠失した配列)が含まれる場合、…

kraken2のレポートをkrona plotで視覚化する

2024/02/14 誤字修正 メタゲノムデータ解析レシピ(ISBN 978-4-7581-2255-9)3章のWEB年度更新で、kraken2のunclassifiledの割合には注意しましょうという説明をしました。その中で、unclassifiledがkrona plotには反映されないと書いたのですが、これはKrak…

ノイズの多いロングリードからハプロタイプを考慮したde novo二倍体ゲノムアセンブリを行う PECAT

2024/04/19 論文引用 高いシーケンスエラーは、2倍体ゲノムアセンブリへのロングノイズリードの適用を妨げてきた。既存のアセンブラーでは、長ノイズリードに含まれる高シーケンスエラーとヘテロ接合体を区別できず、ハプロタイプスイッチの多いアセンブリー…

キュレーションされたBLASTサービス Curated BLAST

Curated BLAST for Genomesは、目的のゲノム内のプロセスまたは酵素活性の候補遺伝子を見つける。通常、各タンパク質について単一の活性を予測するアノテーションツールとは対照的に、Curated BLASTは、ゲノム中のタンパク質のいずれかが、関連する特性化さ…

膜貫通タンパク質の統合リソース UniTmp

UNIfied database of TransMembrane Proteins (UniTmp)は、膜貫通タンパク質の構造情報を、タンパク質セグメントの局在、タンパク質のトポロジーから膜包埋3次元構造まで、様々なレベルで網羅的に収集した、自由にアクセス可能なリソースである。何万もの新…

細菌・古細菌の高速な比較ゲノムブラウザ Fast.genomics

ゲノムシークエンシングにより、細菌や古細菌の驚くべき多様性が明らかになったが、これらのゲノムを横断的に閲覧するための高速で便利なツールは存在しない。原核生物の多様性の中で、目的のタンパク質のホモログの存在率や、それらのホモログの遺伝子近傍…

in silicoタンパク質間相互作用予測のためのユーザーフレンドリーなパイプライン LazyAF

2024/02/07 タイトル変更 人工知能はタンパク質構造予測の分野に革命をもたらした。しかし、より強力で複雑なソフトウェアが開発されるにつれ、エンドユーザーにとって制限要因になりつつあるのは、能力よりもむしろアクセシビリティと使いやすさである。こ…

InterProScan 5

2014年の論文より ロバストな大規模配列解析は、生物学者が何百万もの配列の特徴を明らかにしようとしている現代のゲノム科学における大きな課題である。ここでは、広く使われているタンパク質機能予測ソフトウェアパッケージInterProScanの新しいJavaベース…

大規模微生物データセットのためのスケーラブルなコアゲノムアライメント Parsnp 2.0

2016年以降、NCBIでリファレンスゲノムが利用可能な微生物種の数は3倍以上に増えている。Multiple genome alignmentは、共通の祖先を共有する複数のゲノムのヌクレオチドを特定するプロセスであり、多くの下流の比較解析手法の入力として使用される。Parsnp…

高速・高感度タンパク質配列アノテーション用ソフトウェア nail

新たに塩基配列が決定された生物の多様性は極めて高く、最新の配列データベースは非常に大規模であるため、配列アノテーションにおける感度とスピードという相反するニーズの間で緊張関係が生じている。プロファイル隠れマルコフモデル(pHMM)に基づくアライ…

塩基配列アラインメント用ライブラリ BSAlign

塩基配列アライメントの精度を高めることはゲノム研究において必須の課題である。古典的な動的プログラミングアルゴリズム(Smith-WatermanやNeedleman-Wunschなど)は最適な結果を出すことを保証しているが、その時間の複雑さが大規模配列アライメントへの…

De novoで散在性反復配列を検出する REPrise

真核生物ゲノムの大部分を占める反復配列の正確なアノテーションは、様々なゲノム解析に不可欠である。データベースフリーのde novoリピート検出アプローチは、十分にキュレートされたリピートデータベースがないゲノムのアノテーションに威力を発揮する。し…

大規模生体分子構造の3D可視化のためのウェブアプリケーション Mol* Viewer

大規模な生体分子構造は、結晶学や電子顕微鏡などの確立された技術を用いて、日々実験的に決定されている。さらに、新たな統合的手法やハイブリッド手法(I/HM)により、時には数億個の水素原子以外の原子を含む巨大な高分子機械やアセンブリの構造モデルが…

タンパク質配列中の疎水性モジュール性を視覚的に探索するBlobulatorのウェブツール

疎水性残基のクラスターは構造を取っているタンパク質の安定性を促進し、タンパク質の凝集(aggregation)を促進することが知られている。最近の研究で、連続した疎水性残基クラスター("blob "と呼ばれる)を同定することが、内在性無秩序タンパク質(IDP)…

メタゲノム配列の関心がある配列を拡張アセンブリする TriMetAss

HPより TriMetAssはTrinityソフトウェアを拡張したもので、メタゲノムデータ中の興味深い特徴を囲む領域を選択してアセンブルできる。このソフトウエアは、研究対象の微生物群集において複数の文脈で出現する可能性のある、非常に一般的で保存状態の良い遺伝…

LAIスコアによる連続性の高い植物・藻類ゲノムアセンブリの品質比較を行うサイト PlantLAI

近年のゲノム解読の進歩により、解読されたゲノム数は増加している。しかし、反復配列の存在は植物ゲノムのアセンブリを複雑にしている。LTRアセンブリインデックス(LAI)は、LAIが高いほどアセンブリの質が高いことを意味することから、近年、ゲノムアセン…

タンパク質の要約統計を出力するEMBOSSのpepstatsコマンド

EMBOSSのpepstatsは、1つ以上のタンパク質配列からタンパク質の特性に関する様々な統計情報を出力する。 emboss pepstats https://emboss.sourceforge.net/apps/cvs/emboss/apps/pepstats.html インストール conda|mambaやbrewで導入できる。 #biocondamamba…

表現学習に基づくビニング法 COMEBin

コンティグビニングは、メタゲノムデータ解析において、同一または近縁ゲノムからのコンティグをグループ化することで重要な役割を果たしている。しかし、既存のビニング手法は、データの種類が多様であることや、異種情報を効率的に統合することが困難であ…

近傍した遺伝子の大規模解析、比較、可視化を行う AnnoView

遺伝子近傍の解析と比較は、微生物ゲノムの構造、機能、進化を探索するための強力なアプローチである。ゲノムの可視化や比較のためのツールは数多く存在するが、大規模なゲノムデータベースやユーザーが作成したデータセットを横断してゲノムを探索すること…

(ヒト)遺伝子スクリーニングの結果をタンパク質の配列と構造にリンクする Genomics 2 Proteins portal

近年のAIを用いた手法の進歩は、構造生物学の分野に革命をもたらした。それと同時に、ハイスループットシークエンシングと機能的ゲノミクス技術により、バリアントの検出と生成がかつてない規模で可能になった。しかし、バリアントをタンパク質構造に「マッ…