macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

annotation

柔軟な出力パラメータをもつ高速なORF予測ツール orfipy

2021 2/13 論文引用、help更新、実行例追記 転写物中のORFを検索することは、新たに配列決定されたゲノム中のコーディング領域をアノテーションする前の重要なステップであり、既知の遺伝子内の代替リーディングフレームを検索するための重要なステップであ…

ORFを予測するEMBOSSの getorf

2020 10/26 誤字修正 このプログラムは、1つ以上のヌクレオチド配列中のオープンリーディングフレーム(ORF)の配列を検索して出力する。ORFは、2つのSTOPコドンの間、またはSTARTコドンとSTOPコドンの間の指定された最小サイズの領域として定義することができ…

(植物)葉緑体ゲノム配列を自動で完全にアノテーションする CPGAVAS2

葉緑体ゲノムの完全長配列は、種の進化の歴史に関する豊富な情報を提供している。次世代シークエンシング技術の進展に伴い、葉緑体ゲノムの完全配列の数は飛躍的に増加すると予想されており、ゲノム配列をアノテーションするための強力な計算機ツールが急務…

de novo transcriptomeの系統解析と機能解析を行うwebツール TRAPID 2.0

2021 10/1 論文引用 ハイスループットシーケンシングの進歩は、RNA-Seqトランスクリプトームデータの膨大な増加をもたらした。しかし、特定の組織、状態、単細胞生物、微生物群集での迅速な遺伝子発現プロファイリングが期待されているが、新たな計算上の課…

真菌を中心とした真核生物ゲノムのアノテーションパイプライン funannotate

2021/11/17 dockerについて追記 2023/08/08 引用修正 Funannotateはゲノム予測、アノテーション、比較のためのソフトウェアパッケージである。元々は真菌ゲノム(真核生物の中では小さいもので30 Mb程度のゲノム)のアノテーション用に書かれていたが、より…

アノテーションパイプライン PASA

2020 10/4 コマンドの間違い修正 2020 10/5 アップデートのコマンド修正 2023/01/05, 01/12追記 アップデートのコマンド追記 ゲノム配列に対する発現配列データのスプライスアラインメントは、真核生物ゲノムにおける遺伝子の包括的なアノテーションにおいて…

微生物ゲノムの包括的なアノテーションを行う MicrobeAnnotator

2020 9/5 修正 2020 9/7 誤字修正、出力追記、 2023/07/04 論文引用 ハイスループットシーケンシングにより、利用可能な単離株、シングルセル、メタゲノムからの微生物ゲノムの数が増加している。これらのゲノムを解析・比較するためには、高速で包括的なア…

動物ミトコンドリアゲノムのアセンブリとアノテーションのパイプライン MitoZ

ハイスループットシーケンシング(HTS)技術の登場により、系統樹や生物多様性のモニタリング研究において、大規模な核酸シーケンシングが日常的に行われる時代になってきている。例えば、複雑なDNA抽出物(環境DNA(eDNA)など)を利用したメタバーコーディ…

(microbial genomes)低分子量タンパク質のアノテーションを付ける SmORFinder

Sberroら(2019)が行った最近の研究により、ヒトマイクロバイオーム内に存在するスモールタンパク質の広大な未踏空間が明らかになった。現在のところ、これらの小さなオープンリーディングフレーム(smORF)は既存のリファレンスゲノムではアノテーションさ…

動物(Metazoa)ミトコンドリアゲノムのアノテーションを行うウェブサーバー MITOS

信頼性の高い標準化されたゲノムアノテーションは、ゲノム配列データの系統的な比較解析に不可欠な前提条件である。これは、特に系統の再構成、ゲノムリアレンジメントのメカニズムの研究、配列変化の影響の調査に当てはまる。正確で偏りのないアノテーショ…

ゲノム配列からウィルス配列を同定してアノテーションをつける VIBRANT

細菌や古細菌に感染するウイルスは世界的に豊富であり、ほとんどの環境で宿主の数を上回っている [ref.1,2,3]。ウイルスは、感染時に宿主細胞の代謝状態を再プログラムすることができる義務的な細胞内病原性遺伝要素であり、多様な環境下で毎日20~40%の微…

糖質活性酵素(CAZymes)のアノテーションを行うdbCAN2 webサーバーと、ローカルでアノテーション を行う run_dbcan

炭水化物は、核酸、タンパク質、脂質とともにすべての細胞に存在する4つの主要な生体高分子の1つである。炭水化物には、単糖類、オリゴ糖、多糖類がある。糖タンパク質や糖脂質などの他の生体高分子に糖質が共有結合したハイブリッド生体高分子は、糖質複合…

メタゲノムのビニング後の解析を行う自動化されたパイプライン MetaSanity

2020 5/29 構成を修正、タイトル変更 2020 6/1 コマンド修正 2021 10/5 ツイート追記 マイクロバイオーム研究の重要性はますます一般的になっており、さまざまな生態系(例:海洋、構築、宿主関連など)を理解するために不可欠である。研究者は、微生物ゲノ…

インタラクティブな主成分分析webサービスによってRNA seqデータを分析する PCAGO

過去10年の間に、全トランスクリプトームのシークエンス(RNA-Seq)は、多様な分子機構を理解し、様々な生物学的問題に取り組むための強力な技術として浮上してきた。RNA-Seq実験の初期段階では、異なる遺伝子発現レベルに基づいた生物学的サンプルの初期特…

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 2020 5/12 インストール追記 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオ…

臨床環境の病原性バクテリアを素早くジェノタイピングする biohansel

BioHanselは、全ゲノムシーケンス(WGS)データで系統学的に有益な1塩基多型(SNP)(canonical SNPsとも呼ばれる)を識別することにより、細菌分離株の高解像度のジェノタイピングを実行する。このアプリケーションは、高速k-merマッチングアルゴリズムを…

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 2020 5/11 説明追加 2020 8/13 論文追記 2020 12/9 ツイート追加 2021 2/24アップデートされたコマンドに修正 2021 10/7 ツイート追加 イルミナのテクノロジーを使用した細菌ゲノムの…

HMMを使ったKEGG IDsアノテーションwebサービス KofamKOALA

KofamKOALAは、事前に計算された適応スコアしきい値を持つプロファイル隠れマルコフモデル(KOfam)のデータベースに対する相同性検索により、KEGGオーソログ(KO)をタンパク質配列に割り当てるWebサーバである。 KofamKOALAは、既存のKO assignmentツール…

HaMStR-OneSeq

ESTシーケンスは、タンパク質コード配列を迅速に収集するための多目的なアプローチである。それらは、ゲノムデータからの遺伝子予測の依然としてエラーを起こしやすい手順をバイパスして、生物の遺伝子レパートリーへの直接アクセスを提供する。したがって、…

機能アノテーション付けを行うwebサービス eggNOG-Mapper

2020 9/1 説明追記 2021 8/6 リンク追加 2023/08/10 気づいた事追記 重複イベントではなく種分化に由来するオーソロガス遺伝子の同定(Fitch 1970)は、新規遺伝子の機能的特性化に深い意味を持つ長年にわたる進化の問題である。 「オルソログ推測」では、同…

KEGGのパスウェイアノテーションwebサービス KAAS

2020 2/6 タイトル修正 近年、完全(complete)なゲノムとドラフトゲノムの数は急速に増加しており、これらのゲノムの遺伝子の機能的特性と生物学的役割の特定を自動化することがますます重要になっている。 KEGGデータベースでは、Smith–Watermanスコアを使…

Trinotateを使ってde novo transcriptome のアセンブリ配列にアノテーションをつける

2020 9/16 pythonのバージョンを指定して導入, configファイルについて追記 2020 9/16 コメント追加, signalPとTMHMM、rnammerの初期設定追加 2020 9/27 わかりにくい表現を修正 Trinotarteは、Trinityののde novoトランスクリプトームアセンブリを機能的に…

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時…

オルガネラゲノムのアノテーションを行うwebサービス AGORA

生物学のビッグデータにとって、次世代シーケンシング(NGS)テクノロジーは注目すべき時代であり、生物学のハイスループットゲノムデータの蓄積につながっている。生物学者がさまざまな生物から高スループットのゲノムデータを取得できたとしても、ゲノムア…

真核生物のゲノムプロジェクトにおいて共同研究者と共にアノテーションを効率的に進めるためのwebサービス GenSAS

2020 1/9 タイトル修正 2020 7/19 追記 2020 7/23 追記 Genome Sequence Annotation Server(GenSAS、https://www.gensas.org)は、構造的および機能的アノテーション、および手動キュレーションのための安全なWebベースのゲノムアノテーションプラットフォ…

包括的なメタゲノム解析パイプライン MAGO

微生物種はさまざまな環境で重要な役割を果たしているが、メタゲノムデータセットからの高品質のゲノムの生成は、その生態学的および進化のダイナミクスを理解する上で大きな障害となっている。 Metagenome-Assembled Genomes Orchestra(MAGO)は、複数のマ…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

2021 10/9 コマンドの修正(バージョンアップ) タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda ins…

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

(ヒトとマウス向け)VCFのアノテーションを行う Jannovar

全ゲノムシーケンス(WES)は、ヒトゲノムのタンパク質コーディングエクソンのターゲットシーケンスであり、新しいメンデル遺伝病遺伝子を特定するための強力で費用対効果の高い方法であり、診断環境でもますます使用されている[Bamshad et al 、2011; Robin…

ゲノム間のオロソログを予測してシンテシーブロックとして視覚化する Synima

オーソロガス遺伝子は、タンパク質または機能的RNA分子をコードする核酸のセクションであり、単一の祖先遺伝子から派生し、その後に種分化により分岐している[ref.1、2]。対照的に、パラロガスな遺伝子は、単一の種内の重複から生じたものである。 OrthoDB […