macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

eukaryotic genome annotation

ゲノムからメタコミュニティの幅広いデータに対応したロバストな機能アノテーションを行うツール MetaCerberus

2024/03/5 更新 MetaCerberusは、超並列、高速、低メモリ、スケーラブルなアノテーションツールであり、ゲノムからメタコミュニティにわたる遺伝子機能を推論する。MetaCerberusは、HMM/HMMERベースのツールを低メモリで高速に提供する。KEGG(KO)、COGs、CAZ…

遺伝子アノテーションをフィルタリング、解析、変換する gFACs

公開されたゲノムには、オープンリーディングフレーム、開始点、スプライスサイト、および関連する構造的特徴の同定に関連する問題を表す誤った遺伝子モデルが含まれていることが多い。これらの矛盾の原因は、ロングリードのアラインメントと予測された遺伝…

ゲノムのGFF3アノテーションファイルを扱う AEGeAn Toolkit

マニュアルより AEGeAn Toolkitは、全ゲノム遺伝子構造アノテーションを管理・解析するツールを構築するための、いくつかの異なるが関連した取り組みとして始まった。AEGeAnはこれらの取り組みを一つのライブラリにまとめ、実行可能なプログラムだけでなく、…

遺伝子アノテーションの品質評価を行う OMArk

多様な生物種のゲノム配列がますます豊富になる時代において、タンパク質をコードする遺伝子レパートリーの質を評価することは極めて重要である。最先端のゲノムアノテーション評価ツールは、遺伝子レパートリーの完全性を測定するが、遺伝子の過剰予測やコ…

5′上流に保存されたuORFをアノテーションする uORF4u

原核生物および真核生物において、上流のオープンリーディングフレーム(uORF、いわゆるリーダーペプチドをコードすることが多い)は、下流のメインORF(mORF)の翻訳と転写を制御することができる。しかし、新規機能性uORFのアノテーションは、通常100コド…

アノテーションパイプライン BRAKER3

2023/05/28, 5/30 誤字修正 2023/06/13 プレプリント引用 2024/02/19 ツイート追記 タンパク質配列やRNA-Seqライブラリの形で大量の外部エビデンスを提供するデータベースの利用可能性が高まっており、タンパク質コード遺伝子の遺伝子構造予測手法を改善する…

GTF/GFFファイルのツールキット AGAT

2023/02/27 intron addに追記 HPより AGATは、あらゆる種類のGTFやGFFの欠落情報(特徴や属性)をチェック、修正、追加し、完全でソートされた標準的なgff3形式を作成する能力を備えている。長年にわたり、GTF/GFFフォーマットファイルに関連するあらゆるタ…

3'UTRのアノテーションを行う peaks2utr

非モデル生物のアノテーションは未解決の問題であり、特に非翻訳領域(UTR)の検出が重要である。UTRの正確なアノテーションはトランスクリプトーム解析において各遺伝子の発現を正確に把握するために非常に重要であるが、アノテーションパイプラインではほ…

アノテーションパイプライン MAKER

2008年の論文 移植可能で容易に設定可能なゲノムアノテーションパイプラインであるMAKERを開発した。MAKERの目的は、研究者が独立して真核生物ゲノムのアノテーションを行い、ゲノムデータベースを作成することである。MAKERはリピートを識別し、ESTやタンパ…

複数の遺伝子モデルを統合する EVidenceModeler

2023/02/15 追記 EVidenceModeler (EVM) は、真核生物の遺伝子構造を自動アノテーションするツールであり、真核生物の遺伝子構造を、利用可能なすべての証拠の重み付きコンセンサスとして報告するものである。EVMは、Program to Assemble Spliced Alignments…

イントロン位置の保存性とRNA-seqを活用したホモロジーに基づく遺伝子予測を行う GeMoMa

明けましておめでとうございます。今年もよろしくお願いいたします。 今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…

AUGUSTUSの訓練と遺伝子予測のためのウェブサービス WebAUGUSTUS

2023/01/01 誤字修正 タンパク質をコードする遺伝子の予測は、新たにシークエンシングされアセンブルされたゲノムのアノテーションにおいて重要なステップである。AUGUSTUSは真核生物の遺伝子予測のための最も正確なツールの一つである。ここでは、AUGUSTUS…

ハイブリッドRNAシーケンスデータを使ってゲノムアノテーションを改善する annotate_my_genomes

2022/12/27,28 追記 ハイブリッドシーケンステクノロジーの進歩により、ハイブリッドシーケンス・トランスクリプトミクスを用いてしばしばアノテーションされるゲノムアセンブリがますます拡大し、ゲノムの特性解析が向上し、さまざまな生物における新規遺伝…

ロングリードcDNAシーケンスも利用できる真核生物ゲノムの自動化されたアノテーションツール LoReAn

1分子完全長相補DNA(cDNA)配列決定は、転写産物の構造やスプライス形態を明らかにすることで、ゲノムアノテーションを支援することができるが、現在のアノテーションパイプラインにはそのような情報が組み込まれていない。本研究では、ロングリードアノテ…

真核生物ゲノムの自動アノテーションを行うMOSGAのメジャーアップデート

利用可能なゲノム情報の数が非常に増えているため、アクセスしやすく、使いやすい解析ツールの必要性が高まっている。真核生物のゲノムアノテーションを容易にするために、本著者らはMOSGAを作成した。この研究では、ゲノムデータに対するいくつかの高度な解…

BUSCO v5

2021 8/14 誤字修正 2021 11/29 誤字修正 2022/06/08 インストールのバージョン更新, 7/3 追記, 7/20 追記 2024/03/07 追記, 3/16 BUSCOv5.7.0について追記 ゲノムデータやメタゲノムデータの品質を評価する方法は、ゲノムアセンブリを助け、その後の解析結…

真菌ゲノムのアノテーションパイプライン FunGAP

ゲノム解析が成功するかどうかは遺伝子予測の質にかかっている。fungalゲノムの解読とアセンブルは容易になったが、そのアノテーション手順はまだ標準化されていない。FunGAP は、真菌ゲノムアセンブリ中のタンパク質をコードする遺伝子を予測するプログラム…

真核生物ゲノムに存在するLTRレトロトランスポゾンをde novoで発見してアノテーションを付ける LTRpred

LTRレトロトランスポゾンは、2つの類似したロングターミナルリピート(LTR)を含む可動性遺伝因子の一種である。現在、LTRレトロトランスポゾンは、主に従来の相同性検索の手法で真核生物のゲノムにアノテーションされている。そのため、既知の因子のアノテ…

自動化された真核生物の遺伝子アノテーションツール FINDER

2021 9/1 論文追記 2022/12/27 追記 真核生物の遺伝子アノテーションは、蓄積された転写産物のデータを緻密に解析する必要があり、簡単な作業ではない。真核生物の遺伝子アノテーションには、重複する遺伝子を含むゲノムの転写活性領域、多数の転写産物を産…

de novoでTEを見つけてアノテーションをつけるパイプライン EDTA

2021/11/26 追記 シーケンス技術とアセンブリアルゴリズムは成熟し、大規模で反復性のあるゲノムでも高品質なde novoアセンブリが可能になってきた。現在のアセンブリは、トランスポーザブルエレメント(TE)をトラバースし、TEのアノテーションを可能にして…

真核生物ゲノムのアノテーションを行うwebサービス MOSGA

近年のシーケンシング技術の進歩により、大規模な真核生物ゲノムであっても高品質のアセンブリを生成することは、多くの生物学者にとって日常的な作業となっている。しかし、このようなアセンブリのアノテーションは、関心のある生物の生物学的性質を解明す…

様々な種のバリアント情報をまとめたデータベース Genome Variation Map(GVM)

Genome Variation Map (GVM; http://bigd.big.ac.cn/gvm/) は、ゲノム変異の公開データリポジトリである。幅広い種のゲノム変異を収集・統合することを目的としており、世界中から様々な変異タイプの投稿を受け付けており、世界中の研究活動を支援するために…

真菌を中心とした真核生物ゲノムのアノテーションパイプライン funannotate

2021/11/17 dockerについて追記 2023/08/08 引用修正 Funannotateはゲノム予測、アノテーション、比較のためのソフトウェアパッケージである。元々は真菌ゲノム(真核生物の中では小さいもので30 Mb程度のゲノム)のアノテーション用に書かれていたが、より…

アノテーションパイプライン PASA

2020 10/4 コマンドの間違い修正 2020 10/5 アップデートのコマンド修正 2023/01/05, 01/12追記 アップデートのコマンド追記 ゲノム配列に対する発現配列データのスプライスアラインメントは、真核生物ゲノムにおける遺伝子の包括的なアノテーションにおいて…

メタゲノムのビニングされた真核生物由来コンティグの品質を調べる EukCC

微生物のDNAは日常的に抽出され、配列決定され、ゲノムにアセンブリされている。回収されたゲノムの品質を推定することは、不完全なゲノムや汚染されたゲノムが公表されるのを防ぐために非常に重要である。シングルコピーマーカー遺伝子(SCMG)は、新たにア…

アノテーションパイプライン BRAKER2

2020 8/14、15、10/1、10/2 追記, タイトル修正、誤字修正 2021 2/9、9/4 追記 2022 1/.29 12/23 condaインストール修正、 追記 2023/01/04, 01/09.01/11 間違った説明を修正、Documentリンク修正、画像追加 2023/03/03 braker3.0の公開について 遺伝子予測…

真核生物の予測されたタンパク質のデータベース EukProt

2020 7/23 説明追加 EukProtは、公開されている予測タンパク質セットと、真核生物の多様性を表すために選択された非注釈ゲノムのデータベースで、すべての主要なスーパーグループからの742種とorphan taxaを含む。系統図、遺伝子ファミリー進化、その他の遺…

公開されている真核生物アセンブリを分析する BlobToolKit

2020 6/15 追記 種の起源について不可知なシーケンスデバイスによって作成されたシーケンシングデータから標的ゲノムを再構築する場合、汚染された DNA によって混同される可能性がある。サンプル処理中に混入した場合でも、標的DNAとの共抽出によって混入し…

KEGGのパスウェイアノテーションwebサービス KAAS

2020 2/6 タイトル修正 近年、完全(complete)なゲノムとドラフトゲノムの数は急速に増加しており、これらのゲノムの遺伝子の機能的特性と生物学的役割の特定を自動化することがますます重要になっている。 KEGGデータベースでは、Smith–Watermanスコアを使…

真核生物のゲノムプロジェクトにおいて共同研究者と共にアノテーションを効率的に進めるためのwebサービス GenSAS

2020 1/9 タイトル修正 2020 7/19 追記 2020 7/23 追記 Genome Sequence Annotation Server(GenSAS、https://www.gensas.org)は、構造的および機能的アノテーション、および手動キュレーションのための安全なWebベースのゲノムアノテーションプラットフォ…