macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2021

clusterProfiler を使ってKEGG pathway Enrichment Analysisを行う

2022/05/30 タイトル修正 2024/03/06 追記 機能エンリッチメント解析は、生命科学におけるハイスループットなオミックスデータを解釈するために極めて重要である。この種のツールは、できるだけ多くの生物について最新のアノテーションデータベースを使用す…

メタゲノムデータから集団の微細多様性をプロファイリングする inStrain

同種の微生物細胞が共存すると、栄養嗜好から病原性までの表現型に影響を与える遺伝的変異を示すことが多い。本発表では、メタゲノムのペアエンドリードを用いて、全ゲノムにわたる集団内の遺伝的多様性(マイクロダイバーシティ)をプロファイリングし、マ…

KaKs_Calculator 3.0

KaKs_Calculator 3.0は、コーディング配列と非コーディング配列の両方に対する選択圧を計算することができるように更新されたツールキットである。コーディング配列の非同義/同義置換率の比率と同様に、非コーディング配列に対する選択は、非コーディング塩…

配列が重複しているGFAを重複のないblunt-ended GFAに変換する GetBlunted

配列グラフは、ゲノムアセンブリとパンゲノミクスという、計算ゲノム科学の2つの異なる分野で重要なツールとして浮上してきた。しかし、このように共通の基盤があるにもかかわらず、微妙に異なるグラフの形式が、パンゲノミクスからゲノムアセンブリへの方法…

サンガーシークエンスデータの自動アセンブルと解析のためのサーバー YAQAAT

サンガーシーケンスが普及しても、自動アセンブリソフトウェアはデスクトップやラップトップ用のスタンドアローンソフトウェアが主流で、同等のオンラインソフトウェアはほとんどないため、配列解析やアセンブリは地理的な制約を受けている。また、世界的な…

機械学習と意味的類似性によってGene Ontologyのアノテーションを行う CrowdGO

ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多…

アミノ酸配列からググってタンパク質の機能を調べる ProteInfer

アミノ酸配列からタンパク質の機能を予測することは、バイオインフォマティクスの長年の課題である。従来の手法では、配列アライメントを用いて、クエリ配列を何千ものタンパク質ファミリーのモデルや個々のタンパク質配列の大規模データベースと比較する。…

ロングリードを用いた低複雑度メタゲノムから株レベルアセンブリを分離する Strainberry

ハイスループットなショートリードメタゲノミクスにより、微生物コミュニティの大規模な種レベルの解析と機能的な特徴付けが可能になった。マイクロバイオームには同一種の複数の株が含まれることが多く、株によってその機能的役割に重要な違いがあることが…

大規模RNA-seqデータセットのマッピングされたリードの集約と要約のための効率的な方法 TieBrush

シーケンシングデータをプログラムで要約し、視覚的に検査する機能はゲノム解析に不可欠だが、現在利用可能な方法は、大量のサンプルに対応できるものではない。特に、数千のRNA-seqサンプル間の転写背景を視覚的に比較することは、利用可能な計算機資源によ…

fastqから正確に汚染を除去する CONSULT

多くのバイオインフォマティクスのアプリケーションには基本的な疑問がある。あるシーケンスリードは、ある広範な分類群のゲノムからなる大規模なデータセットに属しているのか、たとえそのセットの中で最も近いマッチがクエリから進化的に乖離しているのか…

生合成遺伝子クラスターを高精度にde novo同定する GECCO

生合成遺伝子クラスター(BGC)は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、(メタ)ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド(CRF)を用いて、メタ…

コアゲノム推定にメタゲノムアセンブルゲノムを活用するためのロバストなベイズアプローチ mOTUpan

2022/08/20 論文引用 近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム(MAG)やシングルセルアセンブルゲノム(SAG)を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このよう…

塩基配列データから遺伝暗号(コドンテーブル)を予測する Codetta

遺伝暗号は「frozen accident」(参考)であると提唱されてきたが、過去40年間の代替遺伝暗号の発見により、ある程度進化しうることが明らかになった。ほとんどの例はanecdotallyに発見されたものであるため、コドン置換の進化の軌跡や、なぜあるコドンがよ…

アライメントに基づく配列抽出ソフトウェア ALiBaSeq

シーケンシングデータを解析するためのバイオインフォマティクスソリューションは数多く存在するが、系統樹の作成を最終目的とした全ゲノムシーケンス(WGS)データからの標的配列検索のためのオプションはほとんど存在しない。利用可能なツールは、特に深い…

GO enrichment解析結果を要約する GO-Figure!

Gene Ontology(GO)は、大規模アッセイから得られた生物学的データを知識に基づいて計算機で解析し、発見を促す機能的ゲノミクス研究の基礎となるものである。この成功の鍵は、関心のある遺伝子のサブセットに過剰に発現している注釈付き機能を特定すること…

細菌ゲノムとプラスミドの系統に基づく比較ゲノムパイプライン GEnView

ある細菌遺伝子のゲノム座を株や種を超えて比較することで、後天的な移動性、異なる分類群間での保存の度合い、あるいは遺伝子の水平伝播事象の示唆など、その進化に関する洞察を得ることができる。現在までに数千の細菌ゲノムが利用可能であるが、多数のゲ…

アダプタートリミングと低品質塩基のトリミングを行う並列化実装 Atria

2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…

バクテリアゲノムとプラスミド配列のアノテーションを行うBaktaのwebバージョン

以前このブログで細菌ゲノム配列およびプラスミド配列のアノテーションを行うBaktaというツールを紹介しました(リンク)。BaktaはFAIRの原則に従った標準アノテーションを高速に実行でき、アノテーション結果をNCBIやENAに直接登録できる(レポジトリ参照)…

バクテリアのヌクレオチド分解能パンゲノムツール Pandora

新しいパンゲノムグラフ構造であるpandoraと、バクテリアのパンゲノム全体のバリアントを同定するアルゴリズムを紹介する。バクテリアの適応性の多くは付属ゲノムに依存しているため、コアゲノムだけのSNPを解析する方法では満足のいく結果が得られない。Pan…

ハプロタイプを考慮したロングリードからの2倍体ゲノムアセンブリを行う phasebook

ハプロタイプを考慮した2倍体ゲノムアセンブリは、ゲノミクス、精密医療、その他多くの分野で極めて重要である。ロングリードシーケンス技術により、ゲノムアセンブリは大幅に改善された。しかし、現在のロングリードアセンブラは、リファレンスベースのため…

StrainPhlAn3

チュートリアルより StrainPhlAnは、保存された種マーカー遺伝子およびユニークな種マーカー遺伝子内の一塩基多型(SNPs)に基づき、大規模サンプルセット全体の種を系統レベルで解決するためのツールです。StrainPhlAn ワークフローの最初のステップは、Met…

MetaPhlAn3

2022/02/24 kronaのコマンド追記 微生物群集の培養によらない解析は、特にショットガン・メタゲノミクスによる生物学的プロファイリングの手法の進歩により、この10年で劇的に進歩した。マルチオミクス、微生物参照ゲノム、株レベルの多様性へのアクセスがよ…

(非モデル生物)RNA-seqデータの超高速な機能的プロファイリングを行う seq2fun

2022/02/21 画像追記 リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリー…

複雑なメタゲノムデータセットから高品質なゲノムを回収するビニングアルゴリズム binny

2022/10/15 論文引用 ゲノムの再構築は、ゲノム-resolved メタゲノム解析や微生物群集からのマルチオミクスデータ統合において重要なステップである。本発表では、連続したゲノムと高度に断片化したゲノムの両方から高品質のメタゲノムアセンブリゲノムを生…

nanopore direct RNA seq(DRS)の転写産物量を正確に定量する NanoCount

2022/02/15 追記、コマンド修正 遺伝子やアイソフォームの発現変化を正確に定量することは、細胞の機能、分化、疾病の理解に不可欠である。ロングリードDirect RNA Sequencing (DRS) を用いた完全長ネイティブRNAのシーケンスは、RNAの断片化、cDNA合成、PCR…

公開されている大規模なRNA-seqデータセットを扱う recount3

新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bio…

(ヒト)パスウェイエンリッチメント解析のためのウェブアプリケーション DecoPath

過去20年間で、パスウェイデータベースとパスウェイエンリッチメント法は着実に発展してきた。しかし、パスウェイデータの出現に伴い、データベース間の相互運用性が改善されていないため、複数のデータベースから得られたパスウェイ知識をパスウェイ・エン…

ヒトおよびモデル生物のタンパク質相互作用データベース Integrated interactions database

バイオアッセイの改良により、新しいタンパク質間相互作用(PPI)の同定率が大幅に向上し、検出されたヒトPPIの数は、初期のヒト・インタラクトームの推定サイズを大幅に上回っている。これらの新しいPPIは、疾患メカニズムのより完全な見解を提供しているが…

マッピングのローレンツ曲線を生成する bam-lorenz-coverage

Githubより bam-lorenz-coverageはBAMファイルから直接ローレンツプロットやカバレッジプロットを簡単に作成できるフリーソフトです。また、テーブルをテキスト文書として出力することができるので、カスタムプロットを作成することも可能です。また、特定の…

カスタマイズ可能なボルケーノプロットを作成するwebサービス ggVolcanoR

ボルケーノプロットやその他の分析プロット(相関プロット、アップセットプロット、ヒートマップなど)は、トランスクリプトームやプロテオーム解析において重要なデータ可視化方法として機能する。これらのプロットをカスタマイズして作成することは、発現…