macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

NCBI BLASTのClusteredNR database

近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、…

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

生物の分子進化の歴史を理解するには、通常、近縁種や系統のゲノム領域を視覚的に比較する必要がある。このタスクを達成するためのアプリケーションはすでにいくつか存在するが、それらは古すぎたり、限定的すぎたり、あるいは複雑すぎたりして、ほとんどの…

タンパク質の機能的アノテーションを行う AnnoPRO

タンパク質の機能アノテーションは生物科学における長年の課題の一つであり、様々な計算手法が開発されてきた。しかし、既存の方法では、GOファミリーの数が多く、アノテーションされたタンパク質が少ないという深刻なロングテール問題に悩まされている。そ…

生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するウェブツール Comparative Genome Dashboard

Comparative Genome Dashboardは、生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するためのウェブベースのソフトウェアツールである。このツールは細胞機能のハイレベルなグラフィカルな調査を提供し、興味のあるサブシステムをより詳細に調…

高忠実度なin silicoモデリングによるRNA-Seqシミュレータ BEERS2

RNA-seqリードのシミュレーションは、バイオインフォマティクスツールの評価、比較、ベンチマーク、開発において極めて重要である。しかし、RNA-seqシミュレータの分野は過去10年間ほとんど進歩していない。このニーズに応えるため、本著者らは柔軟で高度に…

タンパク質言語モデルの配列表現の直接比較に基づいて遠隔相同性検出を行う pLM-BLAST

配列比較による相同性の検出は、タンパク質の機能と進化の研究における典型的な最初のステップである。この研究では、タンパク質言語モデルのこのタスクへの適用可能性を探る。pLM-BLASTはBLASTにインスパイアされたツールであり、タンパク質言語モデルProtT…

高い特異性と感度で外来配列を除去する ContScout

ゲノムのコンタミネーションは、比較進化ゲノミクスからメタゲノミクスに至るまで、様々なダウンストリームアプリケーションに影響を及ぼす問題として、ますます認識されるようになってきている。ここでは、ContScoutを紹介する。ContScoutは、アノテーショ…

T2Tゲノムアセンブリの評価ツール Genome Continuity Inspector (GCI)

最近のロングリードシーケンス技術の進歩により、高品質なゲノムアセンブリの作成が大幅に容易になった。テロメアtoテロメアなギャップレス(T2T)アセンブリは、ゲノムアセンブリの新たなゴールデンスタンダードとなっている。最近、T2Tレベルのリファレン…

生のメタゲノムシークエンシングリードからターゲットのタンパク質を読んだリードを同定する Lapidary

ゲノムおよびメタゲノムの比較は、サンプル間で異なる、または共通する遺伝的エレメントを同定することに依存している。これらの遺伝的エレメントは、シークエンシングリードをアセンブルし、アセンブリ中の遺伝的エレメントを同定することによって、または…

細菌のタンパク質毒素データベース Toxinome

タンパク質毒素は生物学における重要な分子兵器であり、隣接する細胞を攻撃するために使用される。細菌はタンパク質毒素を使って、原核細胞や真核細胞を死滅させたり、成長を阻害したりする。毒素は、様々な生息環境におけるマイクロバイオームの形成、ファ…

タンパク質ファミリーの機能に重要なアミノ酸残基をインタラクティブに調べるwebツール SitesBLASTとSites on a Tree

タンパク質の機能は、その結合特異性や触媒活性を決定する機能的残基によって左右されるが、通常、タンパク質の機能をアノテーションする際にこれらの残基は考慮されない。生物学者がタンパク質の機能的残基を調べるのを助けるために、本著者らは2つの対話型…

タンパク質のドメインレベルのアノテーションを行う Domainator

2024/06/03 タイトル修正、誤字修正 生物学的配列の大規模なデータベースが利用可能になったことで、遺伝子の多様性と機能を深く探求する機会がもたらされた。細菌防御系は、多様であるがアノテーションが困難な遺伝子の豊富な供給源であり、バイオテクノロ…

メタゲノムアセンブリゲノムの品質を評価するパイプライン MAGqual

微生物群集の全ゲノム配列を決定するメタゲノミクスは、複雑な生態系に対する洞察を提供してきた。新規微生物の発見を容易にし、群集の相互作用を説明し、様々な分野で応用されている。ハイスループットと第3世代シーケンシング技術の進歩は、その普及にさら…

TMHMMのpython3実装 tmhmm.py

tmhmm.pyはPython 3.5+で実装された transmembrane helix hidden Markov model (TMHMM) 。以下の理由で公開されている。 公開されているのはいくつかの理由がある: ソースコードが出版物の一部として入手できない、 ダウンロード可能なバイナリはLinux専用…

リガンド誘導性転写因子のゲノムマイニングを行う Ligify

原核生物の転写因子はリガンドによって遺伝子発現を制御するバイオセンサーとして利用可能であるが、現在はバイオセンサーが存在する化学リガンドのランドスケープは極めて限られている。この状況を拡大するために、本著者らは、enzyme reaction databasesの…

公開されているシークエンシングデータを取得する統合ツール iSeq

ハイスループットシーケンス技術(Next Generation Sequencing; NGS)は、多様な生物学的探究に取り組む研究者によってますます活用されるようになっている。最新のシーケンシングの驚くべきスケールと効率を活用し、ゲノム解析からタンパク質-核酸相互作用…

植物ゲノムのLTRレトロトランスポゾンのアノテーションを行うパイプライン DANTEとDANTE_LTR

ロングターミナルリピート(LTR)レトロトランスポゾンは、ほとんどの植物種のゲノムにおいて、反復DNAエレメントの主要なクラスである。配列決定された植物ゲノムの数は加速度的に増加しており、植物ゲノムアセンブリ中のLTRレトロトランスポゾンの効率的な…

大規模な細菌の系統推定パイプライン OrthoPhyl

一般に公開されている細菌ゲノム配列の数は驚くほど多く(NCBIのGenBankだけでも200万アセンブル)、その数は増え続けている。このような豊富なデータから、これらの配列を進化の文脈の中で位置づける系統解析が求められている。系統的な配置は分類学的な分…

ミトコンドリアゲノムの遺伝子アノテーションを行うWebプラットフォーム DeGeCI 1.1

DeGeCIは、de Bruijn graphとして表現されるアノテーションされたミトコンドリアミトコンドリアゲノムのリファレンスデータベースを用いて、ミトコンドリア塩基配列から完全自動のde novo遺伝子予測を生成するコマンドラインツールである。入力ゲノムはこの…

計算とハイスループット遺伝学で細菌の異化経路のギャップを埋める GapMind for carbon sources

新規の異化酵素とトランスポーターを発見するために、本著者らは29のバクテリアのハイスループット遺伝子データと、異化経路のギャップを見つける自動化ツールを組み合わせた。GapMind for carbon sourcesは、細菌および古細菌ゲノムにおける62種類の化合物…

リファレンスゲノムに対するリードアラインメントからempiricalなクオリティ値を算出する bamConcordance

bamConcordanceは、PacificBiosciencesが管理しているレポジトリの1つで管理されている、リードのリファレンス配列とのマッピングの一致度からリードの経験的なクオリティ値を算出するpythonスクリプト。エラー修正ツールで修正された後のシークエンシング…

(ヒト)推定立体構造に基づいてミスセンスバリアントの機能的影響を予測する AFFIPred

構造情報はミスセンス変異の病原性予測に大きな可能性を持つが、配列データと構造データの間にはよく知られたギャップがあるため、構造に基づく病原性分類法は配列に基づく分類法に比べて限界がある。本著者らは、高精度なタンパク質構造予測手法であるAlpha…

大規模なデータセットにもスケールする多目的k-merカウンターおよび多様性推定器 MerCat2

MerCat2("Mer-Catenate2")は、オミックスデータ中のフィーチャーをロバストに解析するための、汎用性、並列性、拡張性、モジュール性を備えたソフトウェアパッケージである。MerCat2は、あらゆるプラットフォームからのHTSシークエンシングの生リード、ア…

T2Tアセンブリのテロメア配列を同定する T2T_chromosomes.shスクリプト

本スクリプト T2T_chromosomes.shは、テロメア-2-テロメアのアセンブリ配列末端のテロメアリピートを同定する。定義として、リファレンスの染色体を指定し、それの全長をカバーしているアセンブリ配列であることと、そのようなアセンブリ配列の両端にユーザ…

アミノ酸とDNAのジョイント解析による高感度で特異的なメタゲノミックリードの分類器 Metabuli

2024/05/22 追記、誤字修正、コメント追加 メタゲノムの分類学的な分類器は、DNA配列かアミノ酸(AA)配列のどちらかを解析する。しかし、Metabuli (https://metabuli.steineggerlab.com)は、DNAとAAの両方を共同で解析し、感度の高い相同性検出のためにAAの…

モデルおよび非モデル生物におけるTEエンリッチメント解析のための統合ウェブサーバー TEENA

トランスポーザブル・エレメント(TE)は、様々な真核生物のゲノムに豊富に存在する。TEは、通常、異なる転写因子(TF)が結合するシスエレメント(エンハンサーやプロモーターなど)を作り出すことで、重要な制御的役割を果たす可能性があることを示唆する…

複数のロングリードシークエンシングデータの一括した分析を行う Giraffe

第3世代シークエンシング技術は、高品質でウルトラロングリードを生成できることから人気を博している。さまざまなサンプルや複数のシーケンスプラットフォームから得られたデータセットを比較および包括的な解析に活用することは、生物学的メカニズムの解明…

原核生物のゲノム進化のシミュレータ CoreSimul

原核生物は無性の生物であるが、これらの生物は有性生物の減数分裂による組換えとは異なり相同組換えを頻繁に行う。ゲノム進化をシミュレートするために開発されたほとんどのツールは、有性生殖を想定しているか、あるいは集団にDNAフラックスが全くないこと…

変異に伴うタンパク質-タンパク質複合体の結合親和性変化を予測するためのディープアンサンブル法 DeepPPAPredMut

タンパク質-タンパク質相互作用(PPI)は多くの細胞内プロセスを支えており、変異によるその破壊は疾患の原因となる。AlphaFold2のようなタンパク質構造予測手法の進化と、広範な実験的親和性データの利用可能性に伴い、タンパク質-タンパク質複合体における…

ウェブブラウザ上で高品質な高分子構造の可視化を行う Protein Imager

分子ビューアーの長い学習曲線は、研究者が初めて構造生物学の分野にアプローチする際の妨げとなっている。ここでは、次世代のオンライン分子ビューアーとして、軽量で強力かつ使いやすいインターフェースである'The Protein Imager'を紹介する。さらに、こ…