macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

annotation

単離バクテリアゲノムのアセンブリ、アノテーション、比較ゲノム解析を行う高度に自動化されたパイプライン ASA3P

2020 3/22 ツイート、関連ツールリンク追記 2020 3/25 コメント追記 2020 3/26 誤字修正 1977年に、DNAシーケンスがフレデリックサンガーによってサイエンスコミュニティに導入された[ref.1]。それ以来、DNAシーケンスは、ジデオキシチェーンターミネーショ…

臨床環境の病原性バクテリアを素早くジェノタイピングする biohansel

BioHanselは、全ゲノムシーケンス(WGS)データで系統学的に有益な1塩基多型(SNP)(canonical SNPsとも呼ばれる)を識別することにより、細菌分離株の高解像度のジェノタイピングを実行する。このアプリケーションは、高速k-merマッチングアルゴリズムを…

計算リソースを効率的に使って多数のよく似たバクテリアゲノムを素早く分析する自動化されたパイプライン Bactopia

2020 3/17 パラメータ追記、コマンド修正、タイトル修正 2020 3/18 追記 イルミナのテクノロジーを使用した細菌ゲノムのシーケンシングは、多くの場合、扱いやすい分析手法よりも速くデータが生成される手順になっている。 Nextflowワークフローソフトウェア…

HMMを使ったKEGG IDsアノテーションwebサービス KofamKOALA

KofamKOALAは、事前に計算された適応スコアしきい値を持つプロファイル隠れマルコフモデル(KOfam)のデータベースに対する相同性検索により、KEGGオーソログ(KO)をタンパク質配列に割り当てるWebサーバである。 KofamKOALAは、既存のKO assignmentツール…

HaMStR-OneSeq

ESTシーケンスは、タンパク質コード配列を迅速に収集するための多目的なアプローチである。それらは、ゲノムデータからの遺伝子予測の依然としてエラーを起こしやすい手順をバイパスして、生物の遺伝子レパートリーへの直接アクセスを提供する。したがって、…

機能アノテーション付けを行うwebサービス eggNOG-Mapper

重複イベントではなく種分化に由来するオーソロガス遺伝子の同定(Fitch 1970)は、新規遺伝子の機能的特性化に深い意味を持つ長年にわたる進化の問題である。 「オルソログ推測」では、同じ遺伝子重複イベントから派生したパラログ間よりもオーソロガス遺伝…

KEGGのパスウェイアノテーションwebサービス KAAS

2020 2/6 タイトル修正 近年、完全(complete)なゲノムとドラフトゲノムの数は急速に増加しており、これらのゲノムの遺伝子の機能的特性と生物学的役割の特定を自動化することがますます重要になっている。 KEGGデータベースでは、Smith–Watermanスコアを使…

Trinotateを使ってde novo transcriptome のアセンブリ配列にアノテーションをつける

以前紹介したTrinotarteの説明が分かりづらかったので、簡潔にまとめ直します。 TrinotateはデフォルトではTrinityのアセンブリを使ってアノテーション付けを行います。そのため、別のde novoアセンブラを使った場合は少しだけ工夫が必要になります。下に書…

バクテリアゲノムの自動アセンブリ、アノテーション付けツール asqcan

asqcanは、細菌ゲノム配列の自動アセンブリ、品質管理、アノテーション付けのためのワークフローパイプラインである。 最新のバクテリアシーケンシングプロジェクトには、かなりの数の単離株が含まれる場合があり、必要なQCとアノテーションの作成、実行に時…

オルガネラゲノムのアノテーションを行うwebサービス AGORA

生物学のビッグデータにとって、次世代シーケンシング(NGS)テクノロジーは注目すべき時代であり、生物学のハイスループットゲノムデータの蓄積につながっている。生物学者がさまざまな生物から高スループットのゲノムデータを取得できたとしても、ゲノムア…

真核生物のゲノムプロジェクトにおいて共同研究者と共にアノテーションを効率的に進めるためのwebサービス GenSAS

2020 1/9 タイトル修正 Genome Sequence Annotation Server(GenSAS、https://www.gensas.org)は、構造的および機能的アノテーション、および手動キュレーションのための安全なWebベースのゲノムアノテーションプラットフォームである。 GenSASは、ユーザー…

包括的なメタゲノム解析パイプライン MAGO

微生物種はさまざまな環境で重要な役割を果たしているが、メタゲノムデータセットからの高品質のゲノムの生成は、その生態学的および進化のダイナミクスを理解する上で大きな障害となっている。 Metagenome-Assembled Genomes Orchestra(MAGO)は、複数のマ…

UCSC、NCBI、Ensemblからゲノムをダウンロードする genomepy

タイトルの通りのツール。簡単に紹介します。 インストール 依存 tabix genePredToBed genePredToGtf bedToGenePred gtfToGenePred gff3ToGenePred conda install -c bioconda -y ucsc-genepredtobedconda install -c bioconda -y ucsc-genepredtogtfconda i…

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

(ヒトとマウス向け)VCFのアノテーションを行う Jannovar

全ゲノムシーケンス(WES)は、ヒトゲノムのタンパク質コーディングエクソンのターゲットシーケンスであり、新しいメンデル遺伝病遺伝子を特定するための強力で費用対効果の高い方法であり、診断環境でもますます使用されている[Bamshad et al 、2011; Robin…

ゲノム間のオロソログを予測してシンテシーブロックとして視覚化する Synima

オーソロガス遺伝子は、タンパク質または機能的RNA分子をコードする核酸のセクションであり、単一の祖先遺伝子から派生し、その後に種分化により分岐している[ref.1、2]。対照的に、パラロガスな遺伝子は、単一の種内の重複から生じたものである。 OrthoDB […

NCBI submission用にGenBankをテーブル形式に変換する GB2sequin

一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラス…

リファレンスベースのアセンブリやアノテーション情報のliftoverを行う RGAAT

シーケンシング技術の開発により、さまざまな種のゲノムを取得することが容易になっている。 NCBIゲノムデータベース(https://www.ncbi.nlm.nih.gov/genome/browse#!/)では、最大で4963の真核生物、125,679の原核生物、12,952のウイルス、10,916のプラスミ…

GTDBのオンライン系統樹 AnnoTree

2019 11/6 タイトル修正、説明追加 重要な生物学的および進化的洞察は、種の系統発生にわたる遺伝子および機能的アノテーションの有無を調査することにより生成できる。これらには、予期しない taxonomic occurrences の特定(ref.1)、遺伝子の進化的起源の…

eggNOG データベース

eggNOG 5.0のペーパーより 分化イベント後に共通の祖先から分岐したオルソログを同定することは、分子生物学および進化生物学における基本的な課題である。 duplication eventの後に分岐した配列であるパラログと比較して、オルソログは長い進化的タイムスケ…

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加 2019 10/26 インストール手順修正 2019 10/29 同上 2019 10/29 コメント追加 メタゲノミクスおよびメタトランスクリプトミクス研究は、多様な環境からの微生物集団の組成および機能に関する貴重な洞察を提供するが、培養株の遺伝子…

Metagenomic contigsの分析と可視化のための自動化されたパイプライン MetaErg

2019/10/24 MetaCycの結果追記 ゲノムアノテーションは、文字通り、アセンブリされたDNA分子の特徴の注釈である。そのような特徴は、そもそも、タンパク質をコードする遺伝子[「オープンリーディングフレーム」(ORF)]およびリボソームまたはトランスファー…

microbiome研究のためのプラットフォーム iMicrobe

iMicrobeは、研究者自身のデータを公開し、精選された微生物のメタゲノムデータセットと分析のための高性能コンピューティング(HPC)メソッドに接続するプラットフォームである[ref.1]。過去10年間で、シーケンシングのコストはムーアの法則をはるかに上回…

ウィルス専用の遺伝子予測webツール Vgas

2019 10/22 タイトル修正 ウイルス感染によって引き起こされるヒト感染症の治療のためのウイルスゲノム研究の途方もない価値のために、Webサーバーやデータベースを含む多くのウイルス情報学リソースが開発された(Sharma et al、2015)。 RefSeqデータベー…

(植物など)ゲノムアセンブリとアノテーションのクオリティを分析するwebサーバー GenomeQC

2020 3/3 論文追記 過去数十年にわたって、Genlisea aureaの63 Mb [ref.1]からPinus taedaの22 Gb [ref.2]までのサイズの多数の植物ゲノムアセンブリが生成された。このようなプロジェクトから生成されたゲノムリソースは、改良された作物品種の開発に貢献し…

バクテリア/アーキアの高速なアノテーションパイプライン DFAST

2019 11/17 補足説明追記 2019 12/28 インストールコマンド修正 2020 1/17 実行例追加 本著者らはパブリックシーケンスデータベースへのゲノム送信をサポートする原核生物ゲノムアノテーションパイプラインDFASTを開発した。 DFASTは元々オンラインアノテー…

ヒトのバリアントを視覚化したりフィルタリングできるwebツール VCF/Plotein

エクソームシークエンシング(ES)は、多数のヒト表現型および疾患に寄与する遺伝的変異を同定することにおいて非常に成功している (Gilissen et al., 2011; Do et al., 2012).。しかしながら、疾患を引き起こす変異および突然変異を同定する実際のプロセス…

ウィルスアノテーションパイプライン VAPiD

シーケンシング技術がより安価でより入手しやすくなるにつれて、ゲノムシーケンシングはますます普及してきている。小規模のグループでは、単独で分析できるよりも多くのシーケンスデータが生成されている。これらのデータから最大の科学的および公衆衛生的…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…