macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2024-01-01から1年間の記事一覧

細菌分類の指標の1つ; 遺伝子頻度グラフの内部ピーク

2024/09/26 推敲、9/27 追記 前回のパンゲノム解析の説明の続きとなります。 前回: https://kazumaxneo.hatenablog.com/entry/2024/08/28/163036 1、パンゲノムプロット パンゲノム解析結果を視覚化する最も一般的な方法は、x軸にゲノム数を、縦軸にコア遺伝…

グラフやネットワークの可視化と探索のためのソフトウェア Gephi

Gephiは大規模なネットワークグラフを可視化・分析するためのオープンソースソフトウェアである。Gephiは3Dレンダリングエンジンを使ってグラフをリアルタイムに表示し、探索を高速化する。あらゆる種類のグラフの探索、分析、空間化、フィルタリング、クル…

タンパク質配列のゲノム配列へのスプライスアライメントの速度と精度を向上させた Spaln3

Spalnは、哺乳類サイズの真核生物ゲノム配列にタンパク質のクエリ配列をスプライスアライメントし、自己完結的にゲノムマッピングを行うための最も初期の実用的なツールである。しかし、その計算速度は、急速に増加するゲノムおよび転写産物配列データの解析…

パンゲノム解析のためのオブジェクト指向フレームワーク Pagoo

2024/09/29 修正 パンゲノム解析は、細菌集団で起こる分子進化を探るための基本的な手法である。ここでは、パンゲノムデータを簡単に扱うことができるRフレームワークPagooを紹介する。Pagooはカプセル化されているため、複雑な分子情報や表現型情報をオブジ…

(主に動植物)遺伝子ノテーションの品質向上のためのシンテニーベースのツールキット SynGAP

2024/09/06 追記 ゲノム配列決定は生物学者にとって日常的な作業となったが、遺伝子構造アノテーションの課題は依然として残っており、正確なゲノム・遺伝子研究を妨げている。SynGAPは、遺伝子のシンテニー情報を利用して、ゲノムの遺伝子構造アノテーショ…

細菌の種レベル以上でのパンゲノム計算のための包括的コアゲノムアノテーションパイプライン RIBAP

2024/09/03 追記, 9/5追記 微生物パンゲノム解析は、原核生物ゲノム中の遺伝子の有無を同定する。しかし、現在のツールでは、配列の多様性が高い種や、属や科のような分類学上の上位の種を解析する場合には限界がある。Roary ILP Bacterial core Annotation…

出版品質の一塩基多型可視化プロットを出力する Snipit

Snipitは、配列中の一塩基多型を参照配列と比較して要約するためにデザインされた解析・可視化ツールである。このツールは、ヌクレオチドやアミノ酸の違いを効率的にカタログ化し、カスタマイズ可能な出版用の図を通して明確な比較を可能にする。設定可能な…

パンゲノム解析

2024/08/29 推敲, 8/30追記, 9/3 誤字修正、補足*7追加, 9/10 画像追加, 9/20追記 今日はパンゲノム(pan-genome)解析について簡単に紹介します。パンゲノム解析とは、解析対象の種内の全ての株に存在する遺伝子や、一部の株にしか存在しない遺伝子のレパー…

原核生物においてゲノム配列を種のタイプ標本(型)として使えるか

2024/08/28 誤字修正、タイトル修正 2024年8月現在、細菌のゲノム配列は新種記載のためのタイプ標本(型)として認められていません。細菌の新種を報告するには、従来通り、純粋培養した菌を特徴づけ、株を異なる国の2つ以上の公的なCulture Collectionに寄…

特定の分類群に特化したDBを使うことでkrakenのリソース使用量を減らす

2024/08/26 誤字修正 Kraken2はシークエンシングリードから菌叢解析を行うプログラムです。事前に作成されたRefSeq完全長ゲノムのDBなどを使って、シークエンシングリードの超高速な分類学的分類を実行できます。 kraken2はkraken1と比べてメモリ使用率が大…

NCBIのゲノムや遺伝子配列をコマンドラインでダウンロードするNCBI Datasetsツール

2024/09/17追記 2025/02/11 追記, 8/7 追記、9/12追記、2025/10/31 追記 Githubより NCBI Datasetsは、NCBIデータベース全体のデータを簡単に収集できるリソースである。コマンドラインインターフェース(CLI)ツールやNCBI Datasetsウェブインターフェースを…

タンパク質構造検索・アライメントアルゴリズム Reseek

アミノ酸配列からのタンパク質フォールド予測における最近のブレークスルーは、新しい構造の洪水を解き放った。タンパク質空間への洞察を広げ、生物工学や治療法への実用化を追求する新たな機会をもたらすと同時に、新たな課題も提示している。それと同時に…

MEGA11

2024/10/05 追記 MEGA(Molecular Evolutionary Genetics Analysis)ソフトウエアは、計算分子進化の手法とツールの大規模なコレクションを含むまでに成熟した。ここでは、MEGAを種、病原体、遺伝子ファミリーのタイムツリーを構築するための、より包括的な…

IQ-TREE 2

2024/06/24 誤字修正, 9/5 誤字修正 2025/04/30 追記 2025/05/29 追記 2025/12/31 追記 2020年の論文 IQ-TREE(http://www.iqtree.org)は、最尤法を用いた系統推論を行うための、ユーザーフレンドリーで広く利用されているソフトウェアパッケージである。20…

NCBI BLASTのClusteredNR database

近年、配列決定技術の高度化によってNCBIのタンパク質NRデータベースは急速に成長しており、特定の種の生物のタンパク質は過剰に公開されている。このため、特に過剰に読まれた生物の配列かそれに進化的に近縁な生物の配列を使ってBLASTサーチを実行すると、…

ゲノム領域を柔軟に調整して視覚化と比較ができるユーザーフレンドリーなアプリケーション GenoFig

生物の分子進化の歴史を理解するには、通常、近縁種や系統のゲノム領域を視覚的に比較する必要がある。このタスクを達成するためのアプリケーションはすでにいくつか存在するが、それらは古すぎたり、限定的すぎたり、あるいは複雑すぎたりして、ほとんどの…

タンパク質の機能的アノテーションを行う AnnoPRO

タンパク質の機能アノテーションは生物科学における長年の課題の一つであり、様々な計算手法が開発されてきた。しかし、既存の方法では、GOファミリーの数が多く、アノテーションされたタンパク質が少ないという深刻なロングテール問題に悩まされている。そ…

生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するウェブツール Comparative Genome Dashboard

Comparative Genome Dashboardは、生物間の遺伝子機能の類似点と相違点をインタラクティブに探索するためのウェブベースのソフトウェアツールである。このツールは細胞機能のハイレベルなグラフィカルな調査を提供し、興味のあるサブシステムをより詳細に調…

高忠実度なin silicoモデリングによるRNA-Seqシミュレータ BEERS2

RNA-seqリードのシミュレーションは、バイオインフォマティクスツールの評価、比較、ベンチマーク、開発において極めて重要である。しかし、RNA-seqシミュレータの分野は過去10年間ほとんど進歩していない。このニーズに応えるため、本著者らは柔軟で高度に…

タンパク質言語モデルの配列表現の直接比較に基づいて遠隔相同性検出を行う pLM-BLAST

配列比較による相同性の検出は、タンパク質の機能と進化の研究における典型的な最初のステップである。この研究では、タンパク質言語モデルのこのタスクへの適用可能性を探る。pLM-BLASTはBLASTにインスパイアされたツールであり、タンパク質言語モデルProtT…

高い特異性と感度で外来配列を除去する ContScout

ゲノムのコンタミネーションは、比較進化ゲノミクスからメタゲノミクスに至るまで、様々なダウンストリームアプリケーションに影響を及ぼす問題として、ますます認識されるようになってきている。ここでは、ContScoutを紹介する。ContScoutは、アノテーショ…

T2Tゲノムアセンブリの評価ツール Genome Continuity Inspector (GCI)

最近のロングリードシーケンス技術の進歩により、高品質なゲノムアセンブリの作成が大幅に容易になった。テロメアtoテロメアなギャップレス(T2T)アセンブリは、ゲノムアセンブリの新たなゴールデンスタンダードとなっている。最近、T2Tレベルのリファレン…

生のメタゲノムシークエンシングリードからターゲットのタンパク質を読んだリードを同定する Lapidary

ゲノムおよびメタゲノムの比較は、サンプル間で異なる、または共通する遺伝的エレメントを同定することに依存している。これらの遺伝的エレメントは、シークエンシングリードをアセンブルし、アセンブリ中の遺伝的エレメントを同定することによって、または…

細菌のタンパク質毒素データベース Toxinome

タンパク質毒素は生物学における重要な分子兵器であり、隣接する細胞を攻撃するために使用される。細菌はタンパク質毒素を使って、原核細胞や真核細胞を死滅させたり、成長を阻害したりする。毒素は、様々な生息環境におけるマイクロバイオームの形成、ファ…

タンパク質ファミリーの機能に重要なアミノ酸残基をインタラクティブに調べるwebツール SitesBLASTとSites on a Tree

タンパク質の機能は、その結合特異性や触媒活性を決定する機能的残基によって左右されるが、通常、タンパク質の機能をアノテーションする際にこれらの残基は考慮されない。生物学者がタンパク質の機能的残基を調べるのを助けるために、本著者らは2つの対話型…

タンパク質のドメインレベルのアノテーションを行う Domainator

2024/06/03 タイトル修正、誤字修正 生物学的配列の大規模なデータベースが利用可能になったことで、遺伝子の多様性と機能を深く探求する機会がもたらされた。細菌防御系は、多様であるがアノテーションが困難な遺伝子の豊富な供給源であり、バイオテクノロ…

メタゲノムアセンブリゲノムの品質を評価するパイプライン MAGqual

微生物群集の全ゲノム配列を決定するメタゲノミクスは、複雑な生態系に対する洞察を提供してきた。新規微生物の発見を容易にし、群集の相互作用を説明し、様々な分野で応用されている。ハイスループットと第3世代シーケンシング技術の進歩は、その普及にさら…

TMHMMのpython3実装 tmhmm.py

tmhmm.pyはPython 3.5+で実装された transmembrane helix hidden Markov model (TMHMM) 。以下の理由で公開されている。 公開されているのはいくつかの理由がある: ソースコードが出版物の一部として入手できない、 ダウンロード可能なバイナリはLinux専用…

リガンド誘導性転写因子のゲノムマイニングを行う Ligify

原核生物の転写因子はリガンドによって遺伝子発現を制御するバイオセンサーとして利用可能であるが、現在はバイオセンサーが存在する化学リガンドのランドスケープは極めて限られている。この状況を拡大するために、本著者らは、enzyme reaction databasesの…

公開されているシークエンシングデータを取得する統合ツール iSeq

ハイスループットシーケンス技術(Next Generation Sequencing; NGS)は、多様な生物学的探究に取り組む研究者によってますます活用されるようになっている。最新のシーケンシングの驚くべきスケールと効率を活用し、ゲノム解析からタンパク質-核酸相互作用…