macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

annotation

VCFのアノテーションを行う Snpdat(非モデル生物にも対応)

一塩基多型(SNP)は、脊椎動物と無脊椎動物で見られる最も一般的なgenetic variantである[ref.1]。 SNPは、関連研究[ref.2]、遺伝子マッピング[ref.3]、および集団遺伝学[4]で好まれている分子マーカーとして定期的に利用されている。技術の改善とコストの…

(ヒトとマウス向け)VCFのアノテーションを行う Jannovar

全ゲノムシーケンス(WES)は、ヒトゲノムのタンパク質コーディングエクソンのターゲットシーケンスであり、新しいメンデル遺伝病遺伝子を特定するための強力で費用対効果の高い方法であり、診断環境でもますます使用されている[Bamshad et al 、2011; Robin…

ゲノム間のオロソログを予測してシンテシーブロックとして視覚化する Synima

オーソロガス遺伝子は、タンパク質または機能的RNA分子をコードする核酸のセクションであり、単一の祖先遺伝子から派生し、その後に種分化により分岐している[ref.1、2]。対照的に、パラロガスな遺伝子は、単一の種内の重複から生じたものである。 OrthoDB […

NCBI submission用にGenBankをテーブル形式に変換する GB2sequin

一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフトウェアを使用して、プラス…

リファレンスベースのアセンブリやアノテーション情報のliftoverを行う RGAAT

シーケンシング技術の開発により、さまざまな種のゲノムを取得することが容易になっている。 NCBIゲノムデータベース(https://www.ncbi.nlm.nih.gov/genome/browse#!/)では、最大で4963の真核生物、125,679の原核生物、12,952のウイルス、10,916のプラスミ…

GTDBのオンライン系統樹 AnnoTree

2019 11/6 タイトル修正、説明追加 重要な生物学的および進化的洞察は、種の系統発生にわたる遺伝子および機能的アノテーションの有無を調査することにより生成できる。これらには、予期しない taxonomic occurrences の特定(ref.1)、遺伝子の進化的起源の…

eggNOG データベース

eggNOG 5.0のペーパーより 分化イベント後に共通の祖先から分岐したオルソログを同定することは、分子生物学および進化生物学における基本的な課題である。 duplication eventの後に分岐した配列であるパラログと比較して、オルソログは長い進化的タイムスケ…

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加 2019 10/26 インストール手順修正 2019 10/29 同上 2019 10/29 コメント追加 メタゲノミクスおよびメタトランスクリプトミクス研究は、多様な環境からの微生物集団の組成および機能に関する貴重な洞察を提供するが、培養株の遺伝子…

Metagenomic contigsの分析と可視化のための自動化されたパイプライン MetaErg

2019/10/24 MetaCycの結果追記 ゲノムアノテーションは、文字通り、アセンブリされたDNA分子の特徴の注釈である。そのような特徴は、そもそも、タンパク質をコードする遺伝子[「オープンリーディングフレーム」(ORF)]およびリボソームまたはトランスファー…

microbiome研究のためのプラットフォーム iMicrobe

iMicrobeは、研究者自身のデータを公開し、精選された微生物のメタゲノムデータセットと分析のための高性能コンピューティング(HPC)メソッドに接続するプラットフォームである[ref.1]。過去10年間で、シーケンシングのコストはムーアの法則をはるかに上回…

ウィルス専用の遺伝子予測webツール Vgas

2019 10/22 タイトル修正 ウイルス感染によって引き起こされるヒト感染症の治療のためのウイルスゲノム研究の途方もない価値のために、Webサーバーやデータベースを含む多くのウイルス情報学リソースが開発された(Sharma et al、2015)。 RefSeqデータベー…

(植物など)ゲノムアセンブリとアノテーションのクオリティを分析するwebサーバー GenomeQC

過去数十年にわたって、Genlisea aureaの63 Mb [ref.1]からPinus taedaの22 Gb [ref.2]までのサイズの多数の植物ゲノムアセンブリが生成された。このようなプロジェクトから生成されたゲノムリソースは、改良された作物品種の開発に貢献し、ゲノムサイズ、構…

バクテリア/アーキアの高速なアノテーションパイプライン DFAST

本著者らはパブリックシーケンスデータベースへのゲノム送信をサポートする原核生物ゲノムアノテーションパイプラインDFASTを開発した。 DFASTは元々オンラインアノテーションサーバーとして開始され、現在までに(論文執筆時点)、2016年の最初の立ち上げ以…

ヒトのバリアントを視覚化したりフィルタリングできるwebツール VCF/Plotein

エクソームシークエンシング(ES)は、多数のヒト表現型および疾患に寄与する遺伝的変異を同定することにおいて非常に成功している (Gilissen et al., 2011; Do et al., 2012).。しかしながら、疾患を引き起こす変異および突然変異を同定する実際のプロセス…

ウィルスアノテーションパイプライン VAPiD

シーケンシング技術がより安価でより入手しやすくなるにつれて、ゲノムシーケンシングはますます普及してきている。小規模のグループでは、単独で分析できるよりも多くのシーケンスデータが生成されている。これらのデータから最大の科学的および公衆衛生的…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

Functional annotationを行うwebサーバー PANNZER2

正確なfunctional annotationを持つタンパク質は、生物学的研究に不可欠である。残念ながら、タンパク質配列の大部分は機能的に特徴付けられていない。つまり、実験的に検証されたアノテーションはない。ハイスループットシーケンスの進歩により、シーケンス…

微生物ゲノムアセンブリの品質と比較ゲノミクス(correspondence要約)

私(論文のオーサー;hereafter、私)の最近の研究では、低品質の細菌ゲノム配列(ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義)を扱ってきた。主要な問題は、ゲノムのクオリ…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

de novo transcriptome解析のクラスタリングとclosely rellatedな種の情報を用いたアノテーションを行う Grouper

シーケンシング技術の進歩により、モデル生物の範囲を超えてトランスクリプトームを効率的かつ正確に探索することが可能になった(Ekblom and Galindo、2011; Marioni et al、2008)。トランスクリプトームシークエンシングは、高品質のリファレンスゲノムを…

メタゲノムシーケンシングリードをアセンブリしてvirusゲノム配列を探す自動パイプライン virMine

真核生物および原核生物とは対照的に、ウイルスゲノムはごく一部のみがシーケンシングされ特徴付けられている。ウイルスのメタゲノム研究は、地球上でのウイルスの多様性についての理解を深めるうえで極めて重要である。海水(Breitbart et al、2002; Yoosep…

メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた(ref.1-4)。従来の単離培養工程の独立性は、費…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

ファージゲノムのORFを予測する PHANOTATE

2019 5/30 タイトル修正、関連ツール追加 バクテリアに感染するウイルスであるファージは、バイオインフォマティクスに独自の課題をもたらす。どのくらいの量のDNAをキャプシドにパッケージングすることができるかには限界があり、したがってファージゲノム…

祖先タンパク質コード遺伝子を探す AnABlast

2015年のペーパーより ゲノム配列中のタンパク質をコードする遺伝子および偽遺伝子を同定するための新しい方法の開発は、ゲノム時代における主要なチャレンジの一つである。実験的アプローチによってもたらされた並外れた支持に加えて、現在のゲノム生物学に…

植物ゲノムアノテーションwebサービス MEGANTE

ハイスループットシーケンシング技術の出現により、植物ゲノムシーケンシングは加速し、そしてデータは作物改良のために利用されてきている(Bevan and Uauy 2013)。大量の植物ゲノム配列の蓄積は、比較ゲノミクスデータベースの構築(Mihara et al、2010、…

メタゲノムのアセンブリcontig.fastaに精度の高い系統情報をアサインするCATと、binned.fastaに精度の高い系統情報をアサインするBAT

2019 2/15 タイトル修正 2019 2/26 コマンドの誤り修正 2019 7/7 インストール説明修正 2019 10/25 論文引用追記 2019 10/29 wgetしてくるデータベースのリンク更新 メタゲノミクスは、自然環境における微生物群集からのDNAのダイレクトシーケンシングであり…