macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

annotation

GenBankやEMBL/ENA flat fileをNCBI submission用に変換する GB2sequin

2022/09/06 タイトル変更 一般的なウェットラボのユーザーは、ベクターNTI Advance(Life Technologies、Invitrogen、Carlsbad、CA、USA)またはLasergene SeqBuilder(DNASTAR、Madison、WI、USA)などの市販のシーケンス可視化およびアノテーションソフト…

リファレンスベースのアセンブリやアノテーション情報のliftoverを行う RGAAT

シーケンシング技術の開発により、さまざまな種のゲノムを取得することが容易になっている。 NCBIゲノムデータベース(https://www.ncbi.nlm.nih.gov/genome/browse#!/)では、最大で4963の真核生物、125,679の原核生物、12,952のウイルス、10,916のプラスミ…

GTDBのオンライン系統樹 AnnoTree

2019 11/6 タイトル修正、説明追加 重要な生物学的および進化的洞察は、種の系統発生にわたる遺伝子および機能的アノテーションの有無を調査することにより生成できる。これらには、予期しない taxonomic occurrences の特定(ref.1)、遺伝子の進化的起源の…

eggNOG データベース

2022/06/25追記 eggNOG 5.0のペーパーより 分化イベント後に共通の祖先から分岐したオルソログを同定することは、分子生物学および進化生物学における基本的な課題である。 duplication eventの後に分岐した配列であるパラログと比較して、オルソログは長い…

包括的なメタゲノム解析パイプライン ATLAS

2019 10/26関連ツール追加、10/26 インストール手順修正、10/29 同上、10/29 コメント追加 2020 6/28 論文とツイート追記、実行手順は確認中、2/7, 4/27, 4/29 インストール手順とラン手順追記 2021 5/1 dockerインストール追記、5/12 バグ修正手順追記(非…

Metagenomic contigsの分析と可視化のための自動化されたパイプライン MetaErg

2019/10/24 MetaCycの結果追記 2021 1/27 誤字修正 ゲノムアノテーションは、文字通り、アセンブリされたDNA分子の特徴の注釈である。そのような特徴は、そもそも、タンパク質をコードする遺伝子[「オープンリーディングフレーム」(ORF)]およびリボソーム…

microbiome研究のためのプラットフォーム iMicrobe

iMicrobeは、研究者自身のデータを公開し、精選された微生物のメタゲノムデータセットと分析のための高性能コンピューティング(HPC)メソッドに接続するプラットフォームである[ref.1]。過去10年間で、シーケンシングのコストはムーアの法則をはるかに上回…

ウィルス専用の遺伝子予測webツール Vgas

2019 10/22 タイトル修正 ウイルス感染によって引き起こされるヒト感染症の治療のためのウイルスゲノム研究の途方もない価値のために、Webサーバーやデータベースを含む多くのウイルス情報学リソースが開発された(Sharma et al、2015)。 RefSeqデータベー…

(植物など)ゲノムアセンブリとアノテーションのクオリティを分析するwebサーバー GenomeQC

2020 3/3 論文追記 過去数十年にわたって、Genlisea aureaの63 Mb [ref.1]からPinus taedaの22 Gb [ref.2]までのサイズの多数の植物ゲノムアセンブリが生成された。このようなプロジェクトから生成されたゲノムリソースは、改良された作物品種の開発に貢献し…

バクテリア/アーキアの高速なアノテーションパイプライン DFAST

2019 11/17 補足説明追記 2019 12/28 インストールコマンド修正 2020 1/17 実行例追加 2020 10/19 help更新 (v.1.2.10) 2021 2/22 ツイート追記 本著者らはパブリックシーケンスデータベースへのゲノム送信をサポートする原核生物ゲノムアノテーションパイプ…

ヒトのバリアントを視覚化したりフィルタリングできるwebツール VCF/Plotein

エクソームシークエンシング(ES)は、多数のヒト表現型および疾患に寄与する遺伝的変異を同定することにおいて非常に成功している (Gilissen et al., 2011; Do et al., 2012).。しかしながら、疾患を引き起こす変異および突然変異を同定する実際のプロセス…

ウィルスアノテーションパイプライン VAPiD

シーケンシング技術がより安価でより入手しやすくなるにつれて、ゲノムシーケンシングはますます普及してきている。小規模のグループでは、単独で分析できるよりも多くのシーケンスデータが生成されている。これらのデータから最大の科学的および公衆衛生的…

追加配列のアノテーションを含めるように既存のfastaとgff3を改変する reform

タイトルの通りのスクリプト。使い方は下のテストラン参照。 インストール 依存 reform requires Python3 and Biopython. 本体 Github pip install biopythongit clone https://github.com/gencorefacility/reform.git cd reform/ > python3 reform.py -h $ …

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

Functional annotationを行うwebサーバー PANNZER2

2021 10/7 論文引用 正確なfunctional annotationを持つタンパク質は、生物学的研究に不可欠である。残念ながら、タンパク質配列の大部分は機能的に特徴付けられていない。つまり、実験的に検証されたアノテーションはない。ハイスループットシーケンスの進…

微生物ゲノムアセンブリの品質と比較ゲノミクス(correspondence要約)

私(論文のオーサー;hereafter、私)の最近の研究では、低品質の細菌ゲノム配列(ここでは「多くのコンティグを含むゲノム配列アセンブリ、最終的には明らかなミスアセンブリと未解決のプラスミド配列」と定義)を扱ってきた。主要な問題は、ゲノムのクオリ…

NCBIのGenomic feature座標変換機能(Remap)

What is NCBI Remap? https://www.ncbi.nlm.nih.gov/genome/tools/remap/docs/whatis About our alignments 紹介動画 使い方 Assembly-Assembly Coordinate remapping service: NCBIにアクセスする。 生物を指定する。ここではヒトを選択。 クリックして決定…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

de novo transcriptome解析のクラスタリングとclosely rellatedな種の情報を用いたアノテーションを行う Grouper

シーケンシング技術の進歩により、モデル生物の範囲を超えてトランスクリプトームを効率的かつ正確に探索することが可能になった(Ekblom and Galindo、2011; Marioni et al、2008)。トランスクリプトームシークエンシングは、高品質のリファレンスゲノムを…

メタゲノムシーケンシングリードをアセンブリしてvirusゲノム配列を探す自動パイプライン virMine

真核生物および原核生物とは対照的に、ウイルスゲノムはごく一部のみがシーケンシングされ特徴付けられている。ウイルスのメタゲノム研究は、地球上でのウイルスの多様性についての理解を深めるうえで極めて重要である。海水(Breitbart et al、2002; Yoosep…

メタゲノムcontigのビニングとアノテーションwebサーバー BusyBee Web

メタゲノムシーケンシング、すなわち微生物混合群集から無差別に抽出されたDNAの全ゲノムシーケンシングは、分類学的組成および環境マイクロバイオームの機能的可能性を研究するために首尾よく使用されてきた(ref.1-4)。従来の単離培養工程の独立性は、費…

多機能なNGS分析ツール BBtools 其の3BBMap追加コマンド

BBMapの追加コマンドについて紹介します。 BBMap Guide https://jgi.doe.gov/data-and-tools/bbtools/bb-tools-user-guide/bbmap-guide/ callvariants.sh Introducing CallVariants, a new variant caller in #BBMap! CallVariants is 81x faster than mpilu…

様々なデータベースを使ってヒトミトコンドリア変異のアノテーションを行う hmtnote

2019 6/11 データベース追記 HmtNoteは、VCFファイルからヒトのミトコンドリアのバリアントにアノテーションを付けるためのPythonパッケージである。バリアントは、基本、相互参照、変動性、予測のサブセットにグループ化された幅広い情報を使用してアノテー…

ファージゲノムのORFを予測する PHANOTATE

2019 5/30 タイトル修正、関連ツール追加 バクテリアに感染するウイルスであるファージは、バイオインフォマティクスに独自の課題をもたらす。どのくらいの量のDNAをキャプシドにパッケージングすることができるかには限界があり、したがってファージゲノム…

祖先タンパク質コード遺伝子を探す AnABlast

2021 4/13 誤字修正 2015年のペーパーより ゲノム配列中のタンパク質をコードする遺伝子および偽遺伝子を同定するための新しい方法の開発は、ゲノム時代における主要なチャレンジの一つである。実験的アプローチによってもたらされた並外れた支持に加えて、…

植物ゲノムアノテーションwebサービス MEGANTE

ハイスループットシーケンシング技術の出現により、植物ゲノムシーケンシングは加速し、そしてデータは作物改良のために利用されてきている(Bevan and Uauy 2013)。大量の植物ゲノム配列の蓄積は、比較ゲノミクスデータベースの構築(Mihara et al、2010、…

メタゲノムのアセンブリcontig.fastaに精度の高い系統情報をアサインするCATと、binned.fastaに精度の高い系統情報をアサインするBAT

2019 2/15 タイトル修正、2/26 コマンドの誤り修正、7/7 インストール説明修正、10/25 論文引用追記、10/29 wgetしてくるデータベースのリンク更新 2020 1/8 コマンドの例修正、2/5 インストールの流れ修正、091/3 wgetしてくるデータベースのリンク更新 202…

de novo transcriptomeのアノテーションツール dammit

2020 1/31 誤字修正 2020 2/1 コマンド修正 dammitは、単純なde novo transcriptome annotatorである。 アノテーションのプロセスの個々の部分は全てすでに存在しているが、既存の解決策は過度に複雑であるか、または無駄な非フリーソフトウェアに依存してい…

バクテリア間で保存されたシンテシーブロックを探す CSBFinder

2020 7/23 論文追記 ゲノミクス(ゲノム学、ゲノム科学)における重要な問題は、遺伝子がゲノム内でどのように構成されているか、どのような情報がコードされているかである(Rogozin et al、2004)。遺伝子の順序に対する選択圧がない場合、リアレンジメン…

非常に低いカバレッジのWGSデータからTEを推定する Transposome

ゲノムのリピートのアノテーションは、利用可能なツールが数多くあり、すべてが性能や精度に関して分析されていないという理由から、挑戦的な課題である(Leret、2010)。転移因子(TE)を同定するための現在のアプローチは、ゲノムアセンブリ(Ellinghaus e…