macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

protein search

GTDBのオンライン系統樹 AnnoTree

2019 11/6 タイトル修正、説明追加 重要な生物学的および進化的洞察は、種の系統発生にわたる遺伝子および機能的アノテーションの有無を調査することにより生成できる。これらには、予期しない taxonomic occurrences の特定(ref.1)、遺伝子の進化的起源の…

興味があるタンパク質情報を文献やデータベースからマイニングする PaperBLAST

ゲノムシーケンスは、タンパク質の機能が決定される速度をはるかに超えて、新規タンパク質の発見を加速している(ref,1)。ゲノムシーケンスを解釈し、これらの予測されたタンパク質の役割のアノテーションを付けるには、新規タンパク質と特徴付けられたタン…

UniProtKBデータベースを3つのレベルでクラスタリングした Uniclust データベース

UniProt(ref.1)やGenBank(ref.2)などの公共データベースのタンパク質配列の数は、さまざまな大規模ゲノミクスプロジェクト(ref.3〜5)のために急速に増加している。急速な成長により、多くのアプリケーションが代表的なサブセットで動作するようになっ…

Uniprotデータベースに対する高速なタンパク質ホモロジーサーチを行う SANSparallel

近年、シーケンスの数が著しく増加している。これにより、データベース検索(ref.1〜4)がますます長くなり、無料のコンピューティングサービスと事前に計算されたデータベースが閉鎖に追い込まれたりまたは依存するようにクラウドソーシング(ref.5〜7)に…

Functional annotationを行うwebサーバー PANNZER2

正確なfunctional annotationを持つタンパク質は、生物学的研究に不可欠である。残念ながら、タンパク質配列の大部分は機能的に特徴付けられていない。つまり、実験的に検証されたアノテーションはない。ハイスループットシーケンスの進歩により、シーケンス…

Functional annotationを行うwebサーバー GO FEAT

2019 8/17 タイトル修正 、tips追記 ゲノムデータおよびトランスクリプトームデータに生物学的意味を与えることは、特にハイスループットテクノロジーによって生成される大量のデータと、この目的のために開発されたツール、Webサーバー、およびデータベース…

メタゲノムデータセットをタンパク質レベルでアセンブリし、ホモログサーチを行う GRASP2

メタゲノミクスは、特定の微生物群集のゲノム含有量を研究するための培養に依存しないアプローチである。典型的なメタゲノミクス研究では、環境サンプルから微生物のDNAが抽出され、次世代シークエンシング(NGS)技術を使用してシークエンシングされる。中…

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…

祖先タンパク質コード遺伝子を探す AnABlast

2015年のペーパーより ゲノム配列中のタンパク質をコードする遺伝子および偽遺伝子を同定するための新しい方法の開発は、ゲノム時代における主要なチャレンジの一つである。実験的アプローチによってもたらされた並外れた支持に加えて、現在のゲノム生物学に…

推定antibiotic resistance genes を予測するDeepARG

2019 7/5 dockerタグ修正 2019 9/25 インストール追記 抗生物質耐性は緊急かつ高まる世界的な公衆衛生の脅威である。抗生物質耐性による死亡者数は、2050年までに年間1000万人を超え、世界中で約100兆米ドルかかると推定されている[ref.1-3]。抗生物質耐性は…

OrthoVenn2

注意 2019 6/24 追記 6/25 編集 すでに比較されているデータについては問題ありませんが、手持ちのmulti-fsstaをアップロードして調べる場合、シングルラインのfastaににしておかないとそれぞれのfastaの先頭行のみ使ってしまうようです。以下のperlスクリプ…

メタゲノムのraw fastqからantibiotic resistance genesを再構成する fARGene

2019 5/20 関連ツール追記 抗生物質耐性菌による感染は世界的に増加しており、公衆衛生に大きな脅威をもたらしている[ref.1]。抗生物質耐性は細菌種の固有の特性である場合があるが、その臨床的意味において、それは既存の染色体DNAの突然変異によって、また…

NCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 ncbi-blast-dbsはデータベースファイルを並行してダウンロードすることで、NCBIのデータベースをローカルに用意するのにかかる時間を短縮する。使用するスレッド数は自動的に決定される。 MD5チェックサムが検証され、ダウンロード…

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

2019 7/5 インストールエラー修正 2019 10/2 twitter追記 sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作するためのツールボックスである。MinHash sketchは、大規模なDNAまたはRNAシーケンスコレクションの"signatures"を保存し、Jaccard i…

高速かつ高感度なプロテイン検索ツール MMseqs2

2019 3/18 タイトル修正 2019 5/7 タイトル修正 2019 5/20 インストール追記 2019 8/25 twtwitter追記 DNAシーケンシングのスループットは、過去10年間で計算速度よりもはるかに速くなってきており、感度の高いシーケンス検索は、ラージメタゲノムデータセッ…

32のバクテリアの1万以上の機能未知遺伝子欠損の影響をまとめた Fitness Browser

注意: タイトルには 機能未知遺伝子だけ相手にしたように書いてますが、実験はゲノム全体の遺伝子をターゲットにランダムかつ網羅的に行われており、mutant phenotypeの影響を調べた遺伝子数自体は1万よりずっと多くなります。実験結果をまとめたFitness Br…

高速なタンパク質検索ツール SWORD

タンパク質データベースの検索は、バイオインフォマティクスなどのライフサイエンス分野で非常に重要な課題となっている。データベースサイズの指数関数的増加と共に分析される新しいデータの量がますます大きくなってきているため、既存のツールを使用した…

タンパク質を使って高感度にメタゲノムのtaxonomy assignmentを行う kaiju

2018 10/7 タイトル修正 2018 11/20 conda追加 2018 12/12 テスト追記 2019 4/26 データベース追記 ランダムDNAショットガンシーケンシングを使用すると、実験室培養を必要とせずに環境サンプルから全ゲノムDNAを直接得ることができる。この「メタゲノミック…

超高速でDNAとタンパク質のアライメントを行う AC-DIAMOND

2019 1/17 condaインストール追記 2019 1/29 追記 シーケンシング技術の急速な進歩により、微生物の大量シーケンシングデータを作成することが可能になった。このようなデータの解析では、コンティグやリードを大規模にタンパク質データベースに合わせること…

BLASTとコンパチブルで高速なホモロジー検索ツール Diamond

2019 1/20 help追加 、コマンド追記 2019 6/9 -コマンド例から-max-target-seqs削除 2019 7/19 追記 Diamondはindexのつけ方を工夫することでBLASTXの解析速度を加速できるツール。blastと同等の機能を持つが、論文ではblastより最大20000倍高速化できると主…

de novo transcriptome向けのアノテーションツール; Trinotate

2018 10/30 コード修正 2019 10/11 インストール追記、関連ツールリンク追記 2019 10/12 help追記 de novo transcriptomeのアノテーションツールとしてblast2GOがよく知られているが、Trinotateというツールが発表された(論文はまだ)。Trinotateは非モデル…

タンパク質ドメインを検索する HMMER

2019 6/25インストール追記 HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.u…