ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…
profileHMMsFromFASTA.pyは、RefSeqのような大規模な(ウイルスの)タンパク質セットからカスタマイズされたプロファイルHMMを構築するスクリプト。 スクリプトの<DESCRIPTION>より(一部改変) このスクリプトは、タンパク質配列を含むFASTAファイルを入力とし、最終的に</description>…
メタゲノムアセンブリゲノム(MAG)は、微生物の機能についての理解を大幅に広げている。しかし、系統解析や環境調査でよく用いられる16S rRNA遺伝子は、MAGから欠落していることが多い。そこで、ペアエンドシーケンスリードを用いて、16S rRNA遺伝子とMAGを…
シンテニー保存性の解析は、原核生物の未知遺伝子の潜在的な機能的役割を調査するための確立された方法論である。しかし、ゲノムコンテキストの再構築と可視化を行うバイオインフォマティクスツールは、通常、計算速度に依存し、狭い分類学上の範囲に限定さ…
二倍体生物において、全ゲノムハプロタイプの構築は、ヘテロ接合型一塩基多型の対立遺伝子を正確に同定し、正しい相同染色体に割り当てることに依存する。このように対立遺伝子を適切に配置することで、ハプロタイプと呼ばれる染色体上の一塩基多型の組み合…
オペロンや遺伝子群の進化を理解し、機能的な関連を予測するためには、異なる進化段階における遺伝子近傍の保存性を解析することが重要である。このツールFlaGs(Flanking Genesの略)は、NCBIのタンパク質アクセッションのリストを入力とし、近傍にコードさ…
2022/06/17 誤字修正 メタゲノム-アセンブルゲノム(MAG)は、メタゲノムデータから回収された個々のゲノムを表す。MAGは、未培養微生物のゲノム多様性の解析や、自然環境における機能・代謝の可能性を明らかにするために非常に有用である。近年の計算機開発…
オミックス技術を臨床医学やトランスレーショナル・メディシンに取り入れる動きが加速する中、これらの手法によって生成される大規模かつ複雑なデータセットを利用するエンドユーザーには課題がある。ゲノミクスにおける特別な課題は、遺伝子の命名法が大規…
WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。 現在はバイナリのみ公開されています。試して…
抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシン…
2022/06/11 誤字修正 COVID-19の大流行により、シークエンスデータの規模が一変し、SARS-CoV-2のゲノムは地球上のどの生物よりも多く配列決定された。これまでの系統樹探索のためのウェブベースのツールは、この規模の樹に直接スケールアップすることができ…
DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…
近年のハイスループットなオミックス技術により、大量の生物学的データが生み出されている。このようなビッグオミックスデータを可視化することは、様々な生物学的問題に答えるために必要不可欠である。簡潔でありながら包括的な戦略として、ヒートマップは…
小児がんの遺伝子病変(sequence mutations や遺伝子融合など)とRNA発現を同時に可視化するウェブアプリケーション、ProteinPaintについて説明する。小児がんデータセットは、17サブタイプの小児がんから診断時または再発時に取得された27,188の検証済み体…
2022/06/09 追記 Githubより NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ステップなし)、必要な計算資源と…
テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…
2022/06/10 追加 Gene Expression Omnibus (GEO) は、一般に公開されているハイスループットな遺伝子発現データのかなりの割合をホストしているデータベースリポジトリである。遺伝子発現解析は、サンプルグループ間の生物学的および表現型の違いの根底にあ…
近年のハイスループット(メタ)トランスクリプトミクスやプロテオミクスの分野では、単一の遺伝子やタンパク質だけでなく、拡張された生物システムを探索するための簡便で迅速な方法が求められている。遺伝子セットエンリッチメント解析は、遺伝子セット内…
2022/06/04 追記 2019年春、CARDのRGIソフトウェアバージョン5がリリースされた。これは、CARDの統合情報を使用して、CARDのウェブサイトまたはコマンドラインツールとして、ゲノムおよびメタゲノムデータのレジストムを予測するものである。RGIは、Prodigal…
コーディングバリアントの影響予測は大きく進歩したが、ノンコーディングバリアントの評価は依然として困難である。特にプロモーター領域内のバリアントは、遺伝子の過剰発現を引き起こしたり、発現を低下させたり、あるいは消失させたりする可能性があるた…
パンコムギ(Triticum aestivum L.)は最も広く栽培されている作物の一つであるが、増大する世界人口の予測需要に対応するために収量を増加させることが大きな課題である。気候変動に関連した収量損失は、21世紀半ばまでに17~31%に及ぶと予測されており(Ob…
FragGeneScanは現在、短くてエラーが起こりやすいリードの遺伝子予測に最も正確で人気のあるツールであるが、その実行速度は大規模データセットで使用するには不十分である。この問題を解決するはずの並列化も非効率的であった。その代替実装であるFragGeneS…
マイクロアレイデータは、生物学者が複数の表現型にわたって差次的に発現した遺伝子(DEG)を抽出することを可能にする。マイクロアレイ解析のためのパイプラインやツールはいくつか存在するが、それらは中級から上級の計算理解者を対象としており、使いやす…
分子生物学や細胞生物学の分野において、様々な機能要素を持つ生体配列を可視化することは、科学的成果を発表する上で基本的なことである。しかし、現在使用されているアプリケーションの限界により、生物学的な模式図の作成にはまだかなりの課題が残ってい…
ロングリードシーケンスでは、ショートリードシーケンスではマッピングが困難とされているゲノム領域でのバリアント検出ができる。この手法では、長距離ハプロタイプ情報を用いてSNPを検出し、検出されたSNPとロングリードを位相合わせし、ローカルリアライ…
ゲノムワイド関連研究(GWAS)は、一塩基多型(SNPs)などの遺伝的バリアントと特定の形質や疾患との関連を明らかにすることを目的としている。これらの結果をさらに探求し、解釈するためには、パスウェイ、生物学的プロセス、疾患との関連などの共通テーマ…
腫瘍の全エキソームから体細胞変異を解析することで、新規のガンドライバー遺伝子の発見が加速されている。しかし、ゲノムの約98%はノンコーディングであり、その中には変異によって正常な細胞機能が損なわれる可能性のある調節エレメントも含まれている。一…
近年の計算機アプローチや実験ワークフローの進歩により、ゲノムワイドな生物学的・ゲノムデータを比較的容易に、かつ一般的に取得することができるようになった。このハイスループット・データは、数百種類の植物のDNA(配列、メチル化、クロマチンアクセシ…
ナノポアシーケンスは長いリードを生成し、特にドラフト細菌ゲノムのアセンブリにおいて、次世代シーケンシングと比較してユニークな利点を提供する。しかし、データの特性やアセンブリアルゴリズムに起因するアセンブリエラーが発生することがある。これら…
2022/05/23 step5を画像に差し替え 先日clusterProfilerを使ってKEGG termのエンリッチメント解析を行う例を紹介しました。今回はclusterProfilerを使ってGO Enrichment Analysisを行う流れを紹介します。Bioconductor AnnotationData Packages(link)とし…