macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

protein search

ホモログ及びオルソログタンパク質を検索するwebデータベース orthoFind

相同配列を見つけることは、機能転移によるタンパク質の機能的アノテーションを可能にし、これらの配列が共通の進化起源を有するために推論され、そして進化研究の支持としてしばしば使用される[ref.1−3]。ホモログ内では、オルソログは種分化事象から進…

祖先タンパク質コード遺伝子を探す AnABlast

2015年のペーパーより ゲノム配列中のタンパク質をコードする遺伝子および偽遺伝子を同定するための新しい方法の開発は、ゲノム時代における主要なチャレンジの一つである。実験的アプローチによってもたらされた並外れた支持に加えて、現在のゲノム生物学に…

推定antibiotic resistance genes を予測するDeepARG

抗生物質耐性は緊急かつ高まる世界的な公衆衛生の脅威である。抗生物質耐性による死亡者数は、2050年までに年間1000万人を超え、世界中で約100兆米ドルかかると推定されている[ref.1-3]。抗生物質耐性は、通常、バクテリアが抗生物質への曝露から生き残ると…

OrthoVenn2

相同遺伝子(Homologous genes)は、主に2つのクラス、オルソログおよびパラログに分類できる。オルソログ遺伝子は、種分化イベント中の共通の祖先から発生し(ref.1)、通常、近縁種間ではsyntenicになる。パラログも共通の祖先を共有しているが、種内のシ…

メタゲノムのraw fastqからantibiotic resistance genesを再構成する fARGene

2019 5/20 関連ツール追記 抗生物質耐性菌による感染は世界的に増加しており、公衆衛生に大きな脅威をもたらしている[ref.1]。抗生物質耐性は細菌種の固有の特性である場合があるが、その臨床的意味において、それは既存の染色体DNAの突然変異によって、また…

NCBIデータベースをダウンロードする ncbi-blast-dbs

2018 12/10 タイトル訂正 ncbi-blast-dbsはデータベースファイルを並行してダウンロードすることで、NCBIのデータベースをローカルに用意するのにかかる時間を短縮する。使用するスレッド数は自動的に決定される。 MD5チェックサムが検証され、ダウンロード…

Minhashを使い、genomic DNA / proteinを高速比較する sourmash

sourmashは、ゲノムデータのMinHash sketchesを作成、比較、操作するためのツールボックスである。MinHash sketchは、大規模なDNAまたはRNAシーケンスコレクションの"signatures"を保存し、Jaccard indexを使用してそれらを比較または検索するための軽量な方…

高速かつ高感度なプロテイン検索ツール MMseqs2

2019 3/18 タイトル修正 2019 5/7 タイトル修正 2019 5/20 インストール追記 DNAシーケンシングのスループットは、過去10年間で計算速度よりもはるかに速くなってきており、感度の高いシーケンス検索は、ラージメタゲノムデータセットの分析における主要なボ…

32のバクテリアの1万以上の機能未知遺伝子欠損の影響をまとめた Fitness Browser

注意: タイトルには 機能未知遺伝子だけ相手にしたように書いてますが、実験はゲノム全体の遺伝子をターゲットにランダムかつ網羅的に行われており、mutant phenotypeの影響を調べた遺伝子数自体は1万よりずっと多くなります。実験結果をまとめたFitness Br…

高速なタンパク質検索ツール SWORD

タンパク質データベースの検索は、バイオインフォマティクスなどのライフサイエンス分野で非常に重要な課題となっている。データベースサイズの指数関数的増加と共に分析される新しいデータの量がますます大きくなってきているため、既存のツールを使用した…

タンパク質を使って高感度にメタゲノムのtaxonomy assignmentを行う kaiju

2018 10/7 タイトル修正 2018 11/20 conda追加 2018 12/12 テスト追記 2019 4/26 データベース追記 ランダムDNAショットガンシーケンシングを使用すると、実験室培養を必要とせずに環境サンプルから全ゲノムDNAを直接得ることができる。この「メタゲノミック…

超高速でDNAとタンパク質のアライメントを行う AC-DIAMOND

2019 1/17 condaインストール追記 2019 1/29 追記 シーケンシング技術の急速な進歩により、微生物の大量シーケンシングデータを作成することが可能になった。このようなデータの解析では、コンティグやリードを大規模にタンパク質データベースに合わせること…

BLASTとコンパチブルで高速なホモロジー検索ツール Diamond

2019 1/20 help追加 、コマンド追記 2019 6/9 -コマンド例から-max-target-seqs削除 Diamondはindexのつけ方を工夫することでBLASTXの解析速度を加速できるツール。blastと同等の機能を持つが、論文ではblastより最大20000倍高速化できると主張されている。…

タンパク質ドメインを検索する HMMER

HMMERはタンパク質のドメイン検索に使われるツール。Pfamなどのタンパク質ドメインのデータベースを使い、ドメインの検索を行ってアノテーションをつけることができる。ここではhmmscanを試す。 webサーバー https://www.ebi.ac.uk/Tools/hmmer/ マニュアル …