macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021

BUSCOを使った系統解析

2022/09/13 追記、誤字修正 Current Protocols in BioinformaticsにBUSCOの使い方に関する論文が出ています。(引用1)。その論文のパートの1つ;”Support Protocol 3: BUILDING PHYLOGENOMIC TREES”では、BUSCOがシングルコピーの系統マーカー遺伝子を取り…

細菌の非リボソームペプチドの生合成遺伝子クラスターを発見する Nerpa

微生物由来の天然物は、創薬のための生物活性化合物の主要な供給源である。その中でも、非リボソームペプチド(f)は、抗生物質、免疫抑制剤、抗がん剤を含む多様な天然物のクラスである。近年の天然物探索の進歩により、数千種類のNRPの化学構造が明らかに…

シングルブレイクエンドバリアントと構造バリアントのフェージングにより体細胞構造変異の包括的な評価を行う GRIDSS2

GRIDSS2 は、片側のみが明確に決定できるブレイクポイントであるシングルブレイクエンドを明示的に報告する初めての構造的バリアントコーラーである。シングルブレイクエンドをブレイクポイントと同様に基本的なゲノムリアレンジメントシグナルとして扱うこ…

グラフ畳み込みネットワークによりタンパク質の機能予測を行う DeepFRI

配列データベースに登録されるタンパク質数の急増とその機能の多様化により、自動的な機能予測のための計算機によるアプローチが課題となっている。本発表では、タンパク質言語モデルとタンパク質構造から抽出した配列特徴を利用して、タンパク質の機能を予…

UCSF ChimeraX内でColabFoldを使う

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

ノイズの多いロングリードを分類する deSAMBA

ノイズの多いロングリードの分類を特定するための高速かつ正確な分類ツールが未だ存在せず、有望なロングリードメタゲノムシーケンス技術の利用におけるボトルネックとなっている。本発表では、de Bruijn graph-based Sparse Approximate Match Block Analyz…

パンゲノム解析ツールキット PATO

2022/06/30 エラー発生時の対処例追記 デスクトップパソコンを用いて数千のゲノムを同時に解析するために設計されたPangenome Analysis Toolkit (PATO)を発表する。このツールは、コアゲノムの定義やアクセサリーゲノムの特性といったパンゲノム解析の共通タ…

遺伝子近傍の保存性を調べる FlaGs

オペロンや遺伝子群の進化を理解し、機能的な関連を予測するためには、異なる進化段階における遺伝子近傍の保存性を解析することが重要である。このツールFlaGs(Flanking Genesの略)は、NCBIのタンパク質アクセッションのリストを入力とし、近傍にコードさ…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

ハプロタイプを考慮してロングリードシーケンスからマッピング困難な領域のSNPやインデルを正確に検出する NanoCaller

ロングリードシーケンスでは、ショートリードシーケンスではマッピングが困難とされているゲノム領域でのバリアント検出ができる。この手法では、長距離ハプロタイプ情報を用いてSNPを検出し、検出されたSNPとロングリードを位相合わせし、ローカルリアライ…

clusterProfilerを使ってGO Enrichment Analysisを行う

2022/05/23 step5を画像に差し替え 先日clusterProfilerを使ってKEGG termのエンリッチメント解析を行う例を紹介しました。今回はclusterProfilerを使ってGO Enrichment Analysisを行う流れを紹介します。Bioconductor AnnotationData Packages(link)とし…

clusterProfiler を使ってKEGG pathway Enrichment Analysisを行う

2022/05/30 タイトル修正 機能エンリッチメント解析は、生命科学におけるハイスループットなオミックスデータを解釈するために極めて重要である。この種のツールは、できるだけ多くの生物について最新のアノテーションデータベースを使用することが重要にな…

メタゲノムデータから集団の微細多様性をプロファイリングする inStrain

同種の微生物細胞が共存すると、栄養嗜好から病原性までの表現型に影響を与える遺伝的変異を示すことが多い。本発表では、メタゲノムのペアエンドリードを用いて、全ゲノムにわたる集団内の遺伝的多様性(マイクロダイバーシティ)をプロファイリングし、マ…

KaKs_Calculator 3.0

KaKs_Calculator 3.0は、コーディング配列と非コーディング配列の両方に対する選択圧を計算することができるように更新されたツールキットである。コーディング配列の非同義/同義置換率の比率と同様に、非コーディング配列に対する選択は、非コーディング塩…

配列が重複しているGFAを重複のないblunt-ended GFAに変換する GetBlunted

配列グラフは、ゲノムアセンブリとパンゲノミクスという、計算ゲノム科学の2つの異なる分野で重要なツールとして浮上してきた。しかし、このように共通の基盤があるにもかかわらず、微妙に異なるグラフの形式が、パンゲノミクスからゲノムアセンブリへの方法…

サンガーシークエンスデータの自動アセンブルと解析のためのサーバー YAQAAT

サンガーシーケンスが普及しても、自動アセンブリソフトウェアはデスクトップやラップトップ用のスタンドアローンソフトウェアが主流で、同等のオンラインソフトウェアはほとんどないため、配列解析やアセンブリは地理的な制約を受けている。また、世界的な…

機械学習と意味的類似性によってGene Ontologyのアノテーションを行う CrowdGO

ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多…

アミノ酸配列からググってタンパク質の機能を調べる ProteInfer

アミノ酸配列からタンパク質の機能を予測することは、バイオインフォマティクスの長年の課題である。従来の手法では、配列アライメントを用いて、クエリ配列を何千ものタンパク質ファミリーのモデルや個々のタンパク質配列の大規模データベースと比較する。…

ロングリードを用いた低複雑度メタゲノムから株レベルアセンブリを分離する Strainberry

ハイスループットなショートリードメタゲノミクスにより、微生物コミュニティの大規模な種レベルの解析と機能的な特徴付けが可能になった。マイクロバイオームには同一種の複数の株が含まれることが多く、株によってその機能的役割に重要な違いがあることが…

大規模RNA-seqデータセットのマッピングされたリードの集約と要約のための効率的な方法 TieBrush

シーケンシングデータをプログラムで要約し、視覚的に検査する機能はゲノム解析に不可欠だが、現在利用可能な方法は、大量のサンプルに対応できるものではない。特に、数千のRNA-seqサンプル間の転写背景を視覚的に比較することは、利用可能な計算機資源によ…

fastqから正確に汚染を除去する CONSULT

多くのバイオインフォマティクスのアプリケーションには基本的な疑問がある。あるシーケンスリードは、ある広範な分類群のゲノムからなる大規模なデータセットに属しているのか、たとえそのセットの中で最も近いマッチがクエリから進化的に乖離しているのか…

生合成遺伝子クラスターを高精度にde novo同定する GECCO

生合成遺伝子クラスター(BGC)は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、(メタ)ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド(CRF)を用いて、メタ…

コアゲノム推定にメタゲノムアセンブルゲノムを活用するためのロバストなベイズアプローチ mOTUpan

2022/08/20 論文引用 近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム(MAG)やシングルセルアセンブルゲノム(SAG)を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このよう…

塩基配列データから遺伝暗号(コドンテーブル)を予測する Codetta

遺伝暗号は「frozen accident」(参考)であると提唱されてきたが、過去40年間の代替遺伝暗号の発見により、ある程度進化しうることが明らかになった。ほとんどの例はanecdotallyに発見されたものであるため、コドン置換の進化の軌跡や、なぜあるコドンがよ…

アライメントに基づく配列抽出ソフトウェア ALiBaSeq

シーケンシングデータを解析するためのバイオインフォマティクスソリューションは数多く存在するが、系統樹の作成を最終目的とした全ゲノムシーケンス(WGS)データからの標的配列検索のためのオプションはほとんど存在しない。利用可能なツールは、特に深い…

GO enrichment解析結果を要約する GO-Figure!

Gene Ontology(GO)は、大規模アッセイから得られた生物学的データを知識に基づいて計算機で解析し、発見を促す機能的ゲノミクス研究の基礎となるものである。この成功の鍵は、関心のある遺伝子のサブセットに過剰に発現している注釈付き機能を特定すること…

細菌ゲノムとプラスミドの系統に基づく比較ゲノムパイプライン GEnView

ある細菌遺伝子のゲノム座を株や種を超えて比較することで、後天的な移動性、異なる分類群間での保存の度合い、あるいは遺伝子の水平伝播事象の示唆など、その進化に関する洞察を得ることができる。現在までに数千の細菌ゲノムが利用可能であるが、多数のゲ…

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…

バクテリアゲノムとプラスミド配列のアノテーションを行うBaktaのwebバージョン

以前このブログで細菌ゲノム配列およびプラスミド配列のアノテーションを行うBaktaというツールを紹介しました(リンク)。BaktaはFAIRの原則に従った標準アノテーションを高速に実行でき、アノテーション結果をNCBIやENAに直接登録できる(レポジトリ参照)…

バクテリアのヌクレオチド分解能パンゲノムツール Pandora

新しいパンゲノムグラフ構造であるpandoraと、バクテリアのパンゲノム全体のバリアントを同定するアルゴリズムを紹介する。バクテリアの適応性の多くは付属ゲノムに依存しているため、コアゲノムだけのSNPを解析する方法では満足のいく結果が得られない。Pan…