広範な生物種のタンパク質アノテーションを評価するツール PSAURON

ゲノムアノテーションにおけるタンパク質コード配列の正確性を評価することは困難な問題であり、広く適用できる解決策がない。この原稿では、タンパク質コード遺伝子アノテーションの品質評価を支援するために開発された新しいソフトウェアツール、PSAURON（…

2024-09-04

（主に動植物）遺伝子ノテーションの品質向上のためのシンテニーベースのツールキット SynGAP

2024 Genome Biology synteny_block eukaryotic genome annotation docker time series dataset plant reciprocal best hit animal

2024/09/06 追記ゲノム配列決定は生物学者にとって日常的な作業となったが、遺伝子構造アノテーションの課題は依然として残っており、正確なゲノム・遺伝子研究を妨げている。SynGAPは、遺伝子のシンテニー情報を利用して、ゲノムの遺伝子構造アノテーショ…

2024-05-03

アノテーションされたトランスポーザブル・エレメント（TE）のキュレーションを支援する TEtrimmer

transposon eukaryotic genome annotation

レポジトリよりトランスポーザブル・エレメント（TE）の発見とアノテーションのために多くのツールが開発されている。しかし、高品質なTEコンセンサスライブラリーの構築には、依然としてTEを手作業でキュレーションする必要があり、それには時間がかかり、…

2024-03-04

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024 Bioinformatics metagenome metatranscriptome 高速なツール HMM annotation eukaryotic genome annotation

2024/03/5 更新 2024/04/9 追記 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速に提供する。KEGG…

2023-12-29

遺伝子アノテーションをフィルタリング、解析、変換する gFACs

Genomics Proteomics Bioinformatics 2019 filtering bacterial annotation eukaryotic genome annotation GFF UTR

公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…

2023-09-07

ゲノムのGFF3アノテーションファイルを扱う AEGeAn Toolkit

2012 BMC Bioinformatics GFF annotation eukaryotic genome annotation 2022 NAR Genomics and Bioinformatics

マニュアルより AEGeAn Toolkitは、全ゲノム遺伝子構造アノテーションを管理・解析するツールを構築するための、いくつかの異なるが関連した取り組みとして始まった。AEGeAnはこれらの取り組みを一つのライブラリにまとめ、実行可能なプログラムだけでなく、…

2023-07-21

遺伝子アノテーションの品質評価を行う OMArk

Preprint 2022 eukaryotic genome annotation evaluation tool web tool テスト失敗 2024 Nature Biotechnology

多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…

2023-05-30

5′上流に保存されたuORFをアノテーションする uORF4u

Bioinformatics 2023 uORF API web tool eukaryotic genome annotation bacterial annotation

原核生物および真核生物において、上流のオープンリーディングフレーム（uORF、いわゆるリーダーペプチドをコードすることが多い）は、下流のメインORF（mORF）の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…

2023-05-27

アノテーションパイプライン BRAKER3

docker Singularity 2023 eukaryotic genome annotation automated pipeline

2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…

2023-02-16

GTF/GFFファイルのツールキット AGAT

GFF GTF format conversion ab initio gene prediction reciprocal best hit filtering intron UTR ENA eukaryotic genome annotation pseudogene mask

2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報（特徴や属性）をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…

2023-01-10

3'UTRのアノテーションを行う peaks2utr

2022 Preprint eukaryotic genome annotation polyA UTR

非モデル生物のアノテーションは未解決の問題であり、特に非翻訳領域（UTR）の検出が重要である。UTRの正確なアノテーションはトランスクリプトーム解析において各遺伝子の発現を正確に把握するために非常に重要であるが、アノテーションパイプラインではほ…

2023-01-08

アノテーションパイプライン MAKER

2008 2014 Genome Research Plant Physiology Current Protocols in Bioinformatics eukaryotic genome annotation

2008年の論文移植可能で容易に設定可能なゲノムアノテーションパイプラインであるMAKERを開発した。MAKERの目的は、研究者が独立して真核生物ゲノムのアノテーションを行い、ゲノムデータベースを作成することである。MAKERはリピートを識別し、ESTやタンパ…

2023-01-02

複数の遺伝子モデルを統合する EVidenceModeler

2008 Genome Biology Evidence-driven gene prediction ab initio gene prediction eukaryotic genome annotation

2023/02/15 追記 EVidenceModeler (EVM) は、真核生物の遺伝子構造を自動アノテーションするツールであり、真核生物の遺伝子構造を、利用可能なすべての証拠の重み付きコンセンサスとして報告するものである。EVMは、Program to Assemble Spliced Alignments…

2023-01-01

イントロン位置の保存性とRNA-seqを活用したホモロジーに基づく遺伝子予測を行う GeMoMa

2019 Methods in Molecular Biology Evidence-driven gene prediction eukaryotic genome annotation 2018 BMC Bioinformatics Nucleic Acids Research 2016

明けましておめでとうございます。今年もよろしくお願いいたします。今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…

2022-12-30

AUGUSTUSの訓練と遺伝子予測のためのウェブサービス WebAUGUSTUS

ab initio gene prediction eukaryotic genome annotation Nucleic Acids Research 2013 web tool

2023/01/01 誤字修正タンパク質をコードする遺伝子の予測は、新たにシークエンシングされアセンブルされたゲノムのアノテーションにおいて重要なステップである。AUGUSTUSは真核生物の遺伝子予測のための最も正確なツールの一つである。ここでは、AUGUSTUS…

2022-12-13

ハイブリッドRNAシーケンスデータを使ってゲノムアノテーションを改善する annotate_my_genomes

2022 GigaScience docker eukaryotic genome annotation nextflow Iso-Seq

2022/12/27,28 追記ハイブリッドシーケンステクノロジーの進歩により、ハイブリッドシーケンス・トランスクリプトミクスを用いてしばしばアノテーションされるゲノムアセンブリがますます拡大し、ゲノムの特性解析が向上し、さまざまな生物における新規遺伝…

2022-05-09

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

Singularity docker 2019 Plant Physiology eukaryotic genome annotation テスト失敗

1分子完全長相補DNA（cDNA）配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

2021-12-20

真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

organelle genome 2021 tRNA Computational and Structural Biotechnology Journal eukaryotic genome annotation 結果の視覚化 (visualization) ゲノム比較 (comparative genomics) ANI

利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解…

2021-08-14

BUSCO v5

2021 Molecular Biology and Evolution phylogenetic marker genes orthologue contamination evaluation tool de novo transcriptome eukaryotic genome annotation duplicate removal in primary genome assemblies BUSCO

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記、06/10 誤字修正ゲノムデータやメタゲノムデータの品質を評価する方法は、ゲノムアセンブリを助け…

2021-08-12

真菌ゲノムのアノテーションパイプライン FunGAP

2017 Bioinformatics fungi annotation docker automated pipeline eukaryotic genome annotation

ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…

2021-08-02

真核生物ゲノムに存在するLTRレトロトランスポゾンをde novoで発見してアノテーションを付ける LTRpred

2020 BMC Genomics Long Terminal Repeat retrotransposons (LTR-RTs) large genome eukaryotic genome annotation metagenome HMM

LTRレトロトランスポゾンは、2つの類似したロングターミナルリピート（LTR）を含む可動性遺伝因子の一種である。現在、LTRレトロトランスポゾンは、主に従来の相同性検索の手法で真核生物のゲノムにアノテーションされている。そのため、既知の因子のアノテ…

2021-04-06

自動化された真核生物の遺伝子アノテーションツール FINDER

de novo transcriptome 2021 BMC Bioinformatics automated pipeline docker eukaryotic genome annotation

2021 9/1 論文追記 2022/12/27 追記真核生物の遺伝子アノテーションは、蓄積された転写産物のデータを緻密に解析する必要があり、簡単な作業ではない。真核生物の遺伝子アノテーションには、重複する遺伝子を含むゲノムの転写活性領域、多数の転写産物を産…

2020-12-12

de novoでTEを見つけてアノテーションをつけるパイプライン EDTA

2019 Preprint transposon annotation automated pipeline eukaryotic genome annotation Genome Biology

2021/11/26 追記シーケンス技術とアセンブリアルゴリズムは成熟し、大規模で反復性のあるゲノムでも高品質なde novoアセンブリが可能になってきた。現在のアセンブリは、トランスポーザブルエレメント（TE）をトラバースし、TEのアノテーションを可能にして…

2020-12-05

真核生物ゲノムのアノテーションを行うwebサービス MOSGA

2020 Bioinformatics docker eukaryotic genome annotation web tool

近年のシーケンシング技術の進歩により、大規模な真核生物ゲノムであっても高品質のアセンブリを生成することは、多くの生物学者にとって日常的な作業となっている。しかし、このようなアセンブリのアノテーションは、関心のある生物の生物学的性質を解明す…

2020-11-14

様々な種のバリアント情報をまとめたデータベース Genome Variation Map（GVM）

2020 download eukaryotic genome annotation animal plant virus Nucleic Acids Research variant database dbSNP SARS-CoV-2

Genome Variation Map (GVM; http://bigd.big.ac.cn/gvm/) は、ゲノム変異の公開データリポジトリである。幅広い種のゲノム変異を収集・統合することを目的としており、世界中から様々な変異タイプの投稿を受け付けており、世界中の研究活動を支援するために…

2020-10-05

真菌を中心とした真核生物ゲノムのアノテーションパイプライン funannotate

eukaryotic genome annotation annotation fungi NCBI docker

2021/11/17 dockerについて追記 2023/08/08 引用修正 Funannotateはゲノム予測、アノテーション、比較のためのソフトウェアパッケージである。元々は真菌ゲノム（真核生物の中では小さいもので30 Mb程度のゲノム）のアノテーション用に書かれていたが、より…

2020-10-03

アノテーションパイプライン PASA

2003 Nucleic Acids Research annotation eukaryotic genome annotation database docker

2020 10/4 コマンドの間違い修正 2020 10/5 アップデートのコマンド修正 2023/01/05, 01/12追記アップデートのコマンド追記ゲノム配列に対する発現配列データのスプライスアラインメントは、真核生物ゲノムにおける遺伝子の包括的なアノテーションにおいて…

2020-09-13

メタゲノムのビニングされた真核生物由来コンティグの品質を調べる EukCC

metagenome small eukaryotes eukaryotic genome annotation 生物種の推定 (taxonomic profiling) evaluation tool Genome Biology 2020 UniProt phylogenetic marker genes

微生物のDNAは日常的に抽出され、配列決定され、ゲノムにアセンブリされている。回収されたゲノムの品質を推定することは、不完全なゲノムや汚染されたゲノムが公表されるのを防ぐために非常に重要である。シングルコピーマーカー遺伝子（SCMG）は、新たにア…

2020-08-14

アノテーションパイプライン BRAKER2

docker 2019 2020 Preprint Methods in Molecular Biology automated pipeline eukaryotic genome annotation 2021 NAR Genomics and Bioinformatics

2020 8/14、15、10/1、10/2 追記, タイトル修正、誤字修正 2021 2/9、9/4 追記 2022 1/.29 12/23 condaインストール修正、追記 2023/01/04, 01/09.01/11 間違った説明を修正、Documentリンク修正、画像追加 2023/03/03 braker3.0の公開について遺伝子予測…

2020-07-22

真核生物の予測されたタンパク質のデータベース EukProt

2020 proteome download database eukaryotic genome annotation single cell de novo transcriptome

2020 7/23 説明追加 EukProtは、公開されている予測タンパク質セットと、真核生物の多様性を表すために選択された非注釈ゲノムのデータベースで、すべての主要なスーパーグループからの742種とorphan taxaを含む。系統図、遺伝子ファミリー進化、その他の遺…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

eukaryotic genome annotation