macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

annotation

Helixerと比較して新規アノテーションのミスを探す AnnotationSplitter

非モデル生物におけるゲノム解析では、タンパク質コード遺伝子の正確なアノテーションが極めて重要である。しかし、限られたRNA-Seqデータと不完全なタンパク質リソースは、誤ったアノテーションを引き起こす可能性がある。例えば、隣接する2つ以上の遺伝子…

ゲノムアセンブリからウイルスゲノムを発見して正確なアノテーションをつける Cenote-Taker 3

ウイルスは地球上のあらゆる環境に豊富に存在し、あらゆる細胞生物を感染させる。にもかかわらず、ウイルスはゲノム科学者にとって一種のブラックボックスである。その遺伝的多様性は他の全ての生命体を合わせたものよりも大きく、そのゲノムはシーケンシン…

検索可能な惑星規模の微生物叢リソース SPIRE

メタオミクスデータは、微生物の多様性と機能に関する情報が公共のレポジトリで指数関数的に蓄積されているが、派生した情報はデータの種類、研究、または採集された微生物環境に応じて孤立した状態で管理されている。ここでは、生息地、地理、系統関係を超…

InterProScan 6

InterProScan 6のβ版が公開されているので使い方を確認します。nextflowに対応し、大規模データにもスケールすることがアナウンスされています。 InterProScan 6 (beta) is here A Nextflow-powered, containerised overhaul for scalable, reproducible protei…

各KEGGパスウェイモジュールの完全性を計算する kegg-pathways-completeness tool

2025/05/05 追記 2025/05/06 追記 レポジトリより このkegg-pathways-completenessというツールは、与えられたKEGGオルソログ(KO)の集合に対して、その有無に基づいて各KEGGパスウェイモジュールの完全性を計算する。このツールの現在のバージョンは、495のK…

複数の遺伝子アノテーション手法からの構造情報を統合し、対象の種のコンセンサスアノテーションを生成する OMAnnotator

シーケンス技術の進歩により、研究者は全ゲノムのシーケンスを迅速かつ安価に行えるようになった。しかし、ゲノムアセンブリの改善にもかかわらず、ゲノムアノテーション(タンパク質をコードする遺伝子の同定)は、特に真核生物ゲノムでは依然として困難で…

eggNOG-Mapperをローカルで実行する

タイトルの通りです。計算機サーバーにアクセスできないことが増えてきたので、ローカルで実行する手順を確認します。計算機は用意する必要があるものの、ローカルで実行すれば、パラメータの細かい調整ができるほか、10万配列とかの制限がないのでより自…

植物の機能的アノテーションを行う GFAP

遺伝子の機能的アノテーション(GFA)はゲノム解析において重要であり、広範なゲノム研究の基礎となる。 配列を入力とする一般的なGFAツールは2つのカテゴリーに分けられる: (i)リファレンスベースのツールは、ユーザーが新たに配列決定されたゲノムをアノ…

高速なトランスクリプトームアノテーションパイプライン TransAnnot

2025/02/14 condaインストール追記(conda) 深くシークエンシングされ、de novoアセンブルされたトランスクリプトームのアノテーションは、最新のツールの中には動作が遅く、インストールが難しく、使いにくいものがあるため、依然として難題である。TransAnn…

タンパク質の機能的アノテーションを行う AnnoPRO

タンパク質の機能アノテーションは生物科学における長年の課題の一つであり、様々な計算手法が開発されてきた。しかし、既存の方法では、GOファミリーの数が多く、アノテーションされたタンパク質が少ないという深刻なロングテール問題に悩まされている。そ…

ミトコンドリアゲノムの遺伝子アノテーションを行うWebプラットフォーム DeGeCI 1.1

DeGeCIは、de Bruijn graphとして表現されるアノテーションされたミトコンドリアミトコンドリアゲノムのリファレンスデータベースを用いて、ミトコンドリア塩基配列から完全自動のde novo遺伝子予測を生成するコマンドラインツールである。入力ゲノムはこの…

植物プロテオームの機能的アノテーションを行う mercator4

2019年の論文より すでに200種以上の植物のゲノム配列が発表されており、シーケンス技術の進歩により、この数は急速に増加すると予想されている。新しいゲノムが構築され、遺伝子が同定されると、オントロジーを用いてその推定翻訳産物であるタンパク質の機…

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024/03/5 更新 2024/04/9 追記 2025/05/08 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速…

キュレーションされたBLASTサービス Curated BLAST

Curated BLAST for Genomesは、目的のゲノム内のプロセスまたは酵素活性の候補遺伝子を見つける。通常、各タンパク質について単一の活性を予測するアノテーションツールとは対照的に、Curated BLASTは、ゲノム中のタンパク質のいずれかが、関連する特性化さ…

InterProScan 5

2014年の論文より ロバストな大規模配列解析は、生物学者が何百万もの配列の特徴を明らかにしようとしている現代のゲノム科学における大きな課題である。ここでは、広く使われているタンパク質機能予測ソフトウェアパッケージInterProScanの新しいJavaベース…

高速・高感度タンパク質配列アノテーション用ソフトウェア nail

新たに塩基配列が決定された生物の多様性は極めて高く、最新の配列データベースは非常に大規模であるため、配列アノテーションにおける感度とスピードという相反するニーズの間で緊張関係が生じている。プロファイル隠れマルコフモデル(pHMM)に基づくアライ…

ゲノムのGFF3アノテーションファイルを扱う AEGeAn Toolkit

マニュアルより AEGeAn Toolkitは、全ゲノム遺伝子構造アノテーションを管理・解析するツールを構築するための、いくつかの異なるが関連した取り組みとして始まった。AEGeAnはこれらの取り組みを一つのライブラリにまとめ、実行可能なプログラムだけでなく、…

MiniprotとAUGUSTUSによるゲノムアノテーションを行う GALBA

2023/09/01 論文引用 アース・バイオゲノムプロジェクトによって、利用可能な真核生物ゲノムの数は急速に増加しているが、公開されたゲノムのほとんどは、タンパク質をコードする遺伝子のアノテーションが不足している。さらに、いくつかのゲノムではトラン…

miniprotを使うことでゲノムからのBUSCO評価の精度と速度を改善したcompleasm

2023/07/01 名前をminiBUSCOからcompleasmに差し替え 2023/09/29 論文引用 2025/3/26 SNS 追記 ゲノムアセンブリの完全性評価は、ゲノムデータの正確性と信頼性を評価する上で重要である。不完全なアセンブリは、遺伝子予測、アノテーション、その他のダウン…

出版品質のプラスミドマップを生成、編集、注釈、視覚化するためのウェブサーバー PlasMapper 3.0

PlasMapper 3.0は、出版品質のプラスミドマップを生成、編集、注釈、対話的に可視化できるウェブサーバーである。プラスミドマップは、遺伝子クローニング実験に関する重要な情報を計画、設計、共有、公開するために使用される。PlasMapper 3.0は、PlasMappe…

ファージゲノムのアノテーションと解析のためのウェブサーバー PhaGAA

ファージゲノムアノテーションは、ファージ治療の設計に重要な役割を果たす。これまで、ファージのゲノムアノテーションツールは様々なものがあったが、その多くは単機能のアノテーションに特化したもので、操作プロセスも複雑だった。そのため、ファージゲ…

遺伝子の機能的アノテーションとエンリッチメント解析を行う KOBAS3.0

GSE(Gene Set Enrichment)解析は、ゲノムスケールの実験から生物学的な知見を引き出すために重要な役割を担っている。ORA (overrepresentation analysis)、FCS (functional class scoring)、PT (pathway topology) のアプローチは、GSE手法の3世代に渡って…

多様な節足動物ゲノムの迅速な機能アノテーションのためのワークフロー(interproscan)

ゲノム技術によって遺伝子に関する情報はかつてないほど急速に蓄積されており、Earth BioGenome Project、i5k、Ag100Pest Initiativeなどのシーケンスイニシアティブによって、この取得速度がさらに加速されると予想される。しかし、ゲノム解読を人の健康や…

ネットワークベースのパスウェイアノテーションのためのウェブサーバー PathBIX

パスウェイアノテーションは、生命科学における実験データを解釈し、意味を与えるための重要なツールである。このタスクのために数多くのツールが存在するが、最新世代のパスウェイエンリッチメント解析ツールであるネットワークベース法は、単に遺伝子の内…

タンパク質配列をゲノム配列に対してintron (gap) awareで高速にアラインメントする Miniprot

#2024/03/08 v0.13リリースについて追記(停止コドンの取り扱いのバグ修正) #2025 3/26 SNS追記 Githubより Miniprotは、タンパク質配列をゲノムに対してアフィンギャップ・ペナルティ、スプライシング、フレームシフ トでアライメントする。Miniprotは、他…

グラフニューラルネットワークを用いてタンパク質機能予測を行う PANDA2

ハイスループットなシークエンス技術により、大量のタンパク質配列が生成されているが、タンパク質配列のアノテーションは、低スループットで高価な生物学的実験に大きく依存している。そのため、タンパク質配列から機能的な知識を推測するために、正確かつ…

グラフ畳み込みネットワークによりタンパク質の機能予測を行う DeepFRI

2023/04/05 追記 配列データベースに登録されるタンパク質数の急増とその機能の多様化により、自動的な機能予測のための計算機によるアプローチが課題となっている。本発表では、タンパク質言語モデルとタンパク質構造から抽出した配列特徴を利用して、タン…

ディープラーニングを用いたタンパク質の翻訳後修飾部位予測と可視化のためのウェブサーバ MusiteDeep

MusiteDeepは、タンパク質の翻訳後修飾(PTM)部位の予測および可視化のためのディープラーニングフレームワークを提供するオンラインリソースである。この予測ツールは、タンパク質の配列のみを入力とし、複雑な特徴を必要としないため、多数のタンパク質に…

UniProtのデータベースから機能的アノテーションとID mappingを行う UPIMAPI

2022/07/12 修正 2023/03/05 追記 2024/05/08 追記 オミックスやメタオミックス技術は、微生物の機能を探索するための強力なアプローチだが、オミックスデータセットの大きさと複雑さにより、その解析はしばしば困難な課題となる。オミックスやメタオミック…

バクテリオファージの標準的なアノテーションを行う pharokka

2024/01/12 論文引用 Gitrhubより pharokkaはバクテリオファージの標準的なアノテーションを迅速に行うために設計されています。簡単に説明すると、遺伝子予測はPHANOTATE (https://github.com/deprekate/PHANOTATE) を、機能アノテーションはPHROGsデータベ…