2021
オペロンや遺伝子群の進化を理解し、機能的な関連を予測するためには、異なる進化段階における遺伝子近傍の保存性を解析することが重要である。このツールFlaGs(Flanking Genesの略)は、NCBIのタンパク質アクセッションのリストを入力とし、近傍にコードさ…
テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…
ロングリードシーケンスでは、ショートリードシーケンスではマッピングが困難とされているゲノム領域でのバリアント検出ができる。この手法では、長距離ハプロタイプ情報を用いてSNPを検出し、検出されたSNPとロングリードを位相合わせし、ローカルリアライ…
2022/05/23 step5を画像に差し替え 先日clusterProfilerを使ってKEGG termのエンリッチメント解析を行う例を紹介しました。今回はclusterProfilerを使ってGO Enrichment Analysisを行う流れを紹介します。Bioconductor AnnotationData Packages(link)とし…
2022/05/30 タイトル修正 機能エンリッチメント解析は、生命科学におけるハイスループットなオミックスデータを解釈するために極めて重要である。この種のツールは、できるだけ多くの生物について最新のアノテーションデータベースを使用することが重要にな…
同種の微生物細胞が共存すると、栄養嗜好から病原性までの表現型に影響を与える遺伝的変異を示すことが多い。本発表では、メタゲノムのペアエンドリードを用いて、全ゲノムにわたる集団内の遺伝的多様性(マイクロダイバーシティ)をプロファイリングし、マ…
KaKs_Calculator 3.0は、コーディング配列と非コーディング配列の両方に対する選択圧を計算することができるように更新されたツールキットである。コーディング配列の非同義/同義置換率の比率と同様に、非コーディング配列に対する選択は、非コーディング塩…
配列グラフは、ゲノムアセンブリとパンゲノミクスという、計算ゲノム科学の2つの異なる分野で重要なツールとして浮上してきた。しかし、このように共通の基盤があるにもかかわらず、微妙に異なるグラフの形式が、パンゲノミクスからゲノムアセンブリへの方法…
サンガーシーケンスが普及しても、自動アセンブリソフトウェアはデスクトップやラップトップ用のスタンドアローンソフトウェアが主流で、同等のオンラインソフトウェアはほとんどないため、配列解析やアセンブリは地理的な制約を受けている。また、世界的な…
ますます増加し多様化するゲノム上の遺伝子機能の解析は、ほぼ全て計算機による予測手法に依存している。また、これらのソフトウェアは、コミュニティーのベンチマーク活動を通じて明らかにされたように、それぞれ異なる長所と短所を持っており、多数かつ多…
アミノ酸配列からタンパク質の機能を予測することは、バイオインフォマティクスの長年の課題である。従来の手法では、配列アライメントを用いて、クエリ配列を何千ものタンパク質ファミリーのモデルや個々のタンパク質配列の大規模データベースと比較する。…
ハイスループットなショートリードメタゲノミクスにより、微生物コミュニティの大規模な種レベルの解析と機能的な特徴付けが可能になった。マイクロバイオームには同一種の複数の株が含まれることが多く、株によってその機能的役割に重要な違いがあることが…
シーケンシングデータをプログラムで要約し、視覚的に検査する機能はゲノム解析に不可欠だが、現在利用可能な方法は、大量のサンプルに対応できるものではない。特に、数千のRNA-seqサンプル間の転写背景を視覚的に比較することは、利用可能な計算機資源によ…
多くのバイオインフォマティクスのアプリケーションには基本的な疑問がある。あるシーケンスリードは、ある広範な分類群のゲノムからなる大規模なデータセットに属しているのか、たとえそのセットの中で最も近いマッチがクエリから進化的に乖離しているのか…
生合成遺伝子クラスター(BGC)は、医療やバイオテクノロジーに利用可能な新規かつ特殊な代謝物をコードしている可能性があるため、(メタ)ゲノムマイニングの魅力的なターゲットとなっている。本稿では、条件付きランダムフィールド(CRF)を用いて、メタ…
近年のシーケンサーとバイオインフォマティクスの進歩により、メタゲノムアセンブルゲノム(MAG)やシングルセルアセンブルゲノム(SAG)を通じて、環境に関連する未培養クレードのゲノムを提供し、生命の系譜を拡大している。このような多様性の拡大により…
遺伝暗号は「frozen accident」(参考)であると提唱されてきたが、過去40年間の代替遺伝暗号の発見により、ある程度進化しうることが明らかになった。ほとんどの例はanecdotallyに発見されたものであるため、コドン置換の進化の軌跡や、なぜあるコドンがよ…
シーケンシングデータを解析するためのバイオインフォマティクスソリューションは数多く存在するが、系統樹の作成を最終目的とした全ゲノムシーケンス(WGS)データからの標的配列検索のためのオプションはほとんど存在しない。利用可能なツールは、特に深い…
Gene Ontology(GO)は、大規模アッセイから得られた生物学的データを知識に基づいて計算機で解析し、発見を促す機能的ゲノミクス研究の基礎となるものである。この成功の鍵は、関心のある遺伝子のサブセットに過剰に発現している注釈付き機能を特定すること…
ある細菌遺伝子のゲノム座を株や種を超えて比較することで、後天的な移動性、異なる分類群間での保存の度合い、あるいは遺伝子の水平伝播事象の示唆など、その進化に関する洞察を得ることができる。現在までに数千の細菌ゲノムが利用可能であるが、多数のゲ…
2022/03/13 文章修正 2022/03/15 誤字修正 次世代シーケンサーの進歩により、リードに付着したアダプターや低品質の塩基が 直接的に、あるいは暗黙のうちに、ダウンストリーム解析の妨げとなる。たとえば、偽陽性 一塩基多型(SNP)、断片化したアセンブリが…
以前このブログで細菌ゲノム配列およびプラスミド配列のアノテーションを行うBaktaというツールを紹介しました(リンク)。BaktaはFAIRの原則に従った標準アノテーションを高速に実行でき、アノテーション結果をNCBIやENAに直接登録できる(レポジトリ参照)…
新しいパンゲノムグラフ構造であるpandoraと、バクテリアのパンゲノム全体のバリアントを同定するアルゴリズムを紹介する。バクテリアの適応性の多くは付属ゲノムに依存しているため、コアゲノムだけのSNPを解析する方法では満足のいく結果が得られない。Pan…
ハプロタイプを考慮した2倍体ゲノムアセンブリは、ゲノミクス、精密医療、その他多くの分野で極めて重要である。ロングリードシーケンス技術により、ゲノムアセンブリは大幅に改善された。しかし、現在のロングリードアセンブラは、リファレンスベースのため…
チュートリアルより StrainPhlAnは、保存された種マーカー遺伝子およびユニークな種マーカー遺伝子内の一塩基多型(SNPs)に基づき、大規模サンプルセット全体の種を系統レベルで解決するためのツールです。StrainPhlAn ワークフローの最初のステップは、Met…
2022/02/24 kronaのコマンド追記 微生物群集の培養によらない解析は、特にショットガン・メタゲノミクスによる生物学的プロファイリングの手法の進歩により、この10年で劇的に進歩した。マルチオミクス、微生物参照ゲノム、株レベルの多様性へのアクセスがよ…
2022/02/21 画像追記 リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリー…
ゲノムの再構築は、ゲノム-resolved メタゲノム解析や微生物群集からのマルチオミクスデータ統合において重要なステップである。本発表では、連続したゲノムと高度に断片化したゲノムの両方から高品質のメタゲノムアセンブリゲノムを生成するビニングツール…
2022/02/15 追記、コマンド修正 遺伝子やアイソフォームの発現変化を正確に定量することは、細胞の機能、分化、疾病の理解に不可欠である。ロングリードDirect RNA Sequencing (DRS) を用いた完全長ネイティブRNAのシーケンスは、RNAの断片化、cDNA合成、PCR…
新しいMonorail解析パイプラインによって一様に処理された750,000以上の一般に公開されているヒトとマウスのRNAシーケンス(RNA-seq)サンプルからなるリソース、recount3を紹介する。データへのアクセスを容易にするために、recount3およびsnapcountのR/Bio…