macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

vFamsのprofileHMMsFromFASTA.pyスクリプト

profileHMMsFromFASTA.pyは、RefSeqのような大規模な(ウイルスの)タンパク質セットからカスタマイズされたプロファイルHMMを構築するスクリプト。 スクリプトの<DESCRIPTION>より(一部改変) このスクリプトは、タンパク質配列を含むFASTAファイルを入力とし、最終的に</description>…

ペアエンドシークエンシングリードを使ってメタゲノムアセンブリゲノムと16S rRNAマーカー遺伝子を結び付ける MarkerMAG

メタゲノムアセンブリゲノム(MAG)は、微生物の機能についての理解を大幅に広げている。しかし、系統解析や環境調査でよく用いられる16S rRNA遺伝子は、MAGから欠落していることが多い。そこで、ペアエンドシーケンスリードを用いて、16S rRNA遺伝子とMAGを…

原核生物の保存された遺伝子クラスターを視覚化するwebリソース GeCoViz

シンテニー保存性の解析は、原核生物の未知遺伝子の潜在的な機能的役割を調査するための確立された方法論である。しかし、ゲノムコンテキストの再構築と可視化を行うバイオインフォマティクスツールは、通常、計算速度に依存し、狭い分類学上の範囲に限定さ…

ハプロタイプゲノム配列を組み立てるHaploMaker

二倍体生物において、全ゲノムハプロタイプの構築は、ヘテロ接合型一塩基多型の対立遺伝子を正確に同定し、正しい相同染色体に割り当てることに依存する。このように対立遺伝子を適切に配置することで、ハプロタイプと呼ばれる染色体上の一塩基多型の組み合…

遺伝子近傍の保存性を調べる FlaGs

オペロンや遺伝子群の進化を理解し、機能的な関連を予測するためには、異なる進化段階における遺伝子近傍の保存性を解析することが重要である。このツールFlaGs(Flanking Genesの略)は、NCBIのタンパク質アクセッションのリストを入力とし、近傍にコードさ…

メタゲノム解析のための自動化されたワークフロー MAGNETO

2022/06/17 誤字修正 メタゲノム-アセンブルゲノム(MAG)は、メタゲノムデータから回収された個々のゲノムを表す。MAGは、未培養微生物のゲノム多様性の解析や、自然環境における機能・代謝の可能性を明らかにするために非常に有用である。近年の計算機開発…

遺伝子名の識別を支援するウェブアプリケーション GeneToList

オミックス技術を臨床医学やトランスレーショナル・メディシンに取り入れる動きが加速する中、これらの手法によって生成される大規模かつ複雑なデータセットを利用するエンドユーザーには課題がある。ゲノミクスにおける特別な課題は、遺伝子の命名法が大規…

全ゲノムアライメントからバリアントを報告する WGAVarHunter

WGAVarHunterは全ゲノムアライメントから高速にバリアントコールを行うRustで書かれたプログラム。結果はSNV、smalll and large indels、duplications、inversions、translocationに分けてVCF形式で報告される。 現在はバイナリのみ公開されています。試して…

ショートリードメタゲノミクスデータから薬剤耐性を分類する AMR-meta

抗菌剤耐性(AMR)は世界的な健康問題である。微生物サンプルのハイスループットなメタゲノムシークエンシングにより、精選されたAMRデータベースとの比較によるAMR遺伝子のプロファイリングが可能になる。しかし、データベースの不完全性や、シークエンシン…

大規模な系統樹を探索するためのウェブベースのツール Taxonium

2022/06/11 誤字修正 COVID-19の大流行により、シークエンスデータの規模が一変し、SARS-CoV-2のゲノムは地球上のどの生物よりも多く配列決定された。これまでの系統樹探索のためのウェブベースのツールは、この規模の樹に直接スケールアップすることができ…

(スモールゲノム)汚染されたシークエンシングデータをフィルタリングしながらアセンブリする半自動化されたパイプライン WGA-LP

DNAシーケンシングの技術進歩に伴い、バクテリアゲノムのショートリードによる全ゲノムアセンブリ(WGA)は、ごく一般的な作業となっている。ゲノムのアセンブリプロセスには絶対的な黄金律がなく、多くの異なるツールを組み合わせて一連のステップを実行す…

ヒートマップと遺伝子セットエンリッチメント解析のオンラインサービス HemI 2.0

近年のハイスループットなオミックス技術により、大量の生物学的データが生み出されている。このようなビッグオミックスデータを可視化することは、様々な生物学的問題に答えるために必要不可欠である。簡潔でありながら包括的な戦略として、ヒートマップは…

(主にヒト)バリアントを視覚化する ProteinPaint

小児がんの遺伝子病変(sequence mutations や遺伝子融合など)とRNA発現を同時に可視化するウェブアプリケーション、ProteinPaintについて説明する。小児がんデータセットは、17サブタイプの小児がんから診断時または再発時に取得された27,188の検証済み体…

ロングリードのアセンブラ NextDenovo

2022/06/09 追記 Githubより NextDenovoは、ロングリード(CLR、HiFi、ONT)用のストリンググラフベースのde novoアセンブラです。canuと同様に "correct-then-assemble "戦略を採用していますが(PacBio HiFiリードは修正ステップなし)、必要な計算資源と…

バリアントを考慮したリファレンスアラインメントの高速リフトオーバーを行う levioSAM2

テロメア単位の完全なゲノムアセンブリは、解析の向上や新しいバリアントの発見を期待できるが、多くの重要なゲノムリソースは古いリファレンスゲノムと関連したままである。そのため、リファレンスゲノム間のゲノムフイーチャーやリードアラインメントをト…

遺伝子発現解析と可視化のためのウェブサーバー GEOexplorer

2022/06/10 追加 Gene Expression Omnibus (GEO) は、一般に公開されているハイスループットな遺伝子発現データのかなりの割合をホストしているデータベースリポジトリである。遺伝子発現解析は、サンプルグループ間の生物学的および表現型の違いの根底にあ…

原核生物の遺伝子セットエンリッチメント解析を行うユーザーフレンドリーなウェブサーバー FUNAGE-Pro

近年のハイスループット(メタ)トランスクリプトミクスやプロテオミクスの分野では、単一の遺伝子やタンパク質だけでなく、拡張された生物システムを探索するための簡便で迅速な方法が求められている。遺伝子セットエンリッチメント解析は、遺伝子セット内…

タンパク質やヌクレオチド配列からレジストームを予測する RGI

2022/06/04 追記 2019年春、CARDのRGIソフトウェアバージョン5がリリースされた。これは、CARDの統合情報を使用して、CARDのウェブサイトまたはコマンドラインツールとして、ゲノムおよびメタゲノムデータのレジストムを予測するものである。RGIは、Prodigal…

(ヒトゲノム)バリアントが転写因子結合に及ぼす影響を予測する FABIAN-variant

コーディングバリアントの影響予測は大きく進歩したが、ノンコーディングバリアントの評価は依然として困難である。特にプロモーター領域内のバリアントは、遺伝子の過剰発現を引き起こしたり、発現を低下させたり、あるいは消失させたりする可能性があるた…

パンコムギ16ゲノムの存在・不在バリエーションを表現したパンゲノムグラフデータベース Wheat Panache

パンコムギ(Triticum aestivum L.)は最も広く栽培されている作物の一つであるが、増大する世界人口の予測需要に対応するために収量を増加させることが大きな課題である。気候変動に関連した収量損失は、21世紀半ばまでに17~31%に及ぶと予測されており(Ob…

ショートリードの遺伝子予測の高速化 FragGeneScanRs

FragGeneScanは現在、短くてエラーが起こりやすいリードの遺伝子予測に最も正確で人気のあるツールであるが、その実行速度は大規模データセットで使用するには不十分である。この問題を解決するはずの並列化も非効率的であった。その代替実装であるFragGeneS…

対話型マイクロアレイデータ解析ツール sMAP

マイクロアレイデータは、生物学者が複数の表現型にわたって差次的に発現した遺伝子(DEG)を抽出することを可能にする。マイクロアレイ解析のためのパイプラインやツールはいくつか存在するが、それらは中級から上級の計算理解者を対象としており、使いやす…

生物学的配列の可視化のためにアップグレードされたイラストレーター IBS 2.0

分子生物学や細胞生物学の分野において、様々な機能要素を持つ生体配列を可視化することは、科学的成果を発表する上で基本的なことである。しかし、現在使用されているアプリケーションの限界により、生物学的な模式図の作成にはまだかなりの課題が残ってい…

ハプロタイプを考慮してロングリードシーケンスからマッピング困難な領域のSNPやインデルを正確に検出する NanoCaller

ロングリードシーケンスでは、ショートリードシーケンスではマッピングが困難とされているゲノム領域でのバリアント検出ができる。この手法では、長距離ハプロタイプ情報を用いてSNPを検出し、検出されたSNPとロングリードを位相合わせし、ローカルリアライ…

バリアントエンリッチメント解析を行うshinyサーバー Varanto

ゲノムワイド関連研究(GWAS)は、一塩基多型(SNPs)などの遺伝的バリアントと特定の形質や疾患との関連を明らかにすることを目的としている。これらの結果をさらに探求し、解釈するためには、パスウェイ、生物学的プロセス、疾患との関連などの共通テーマ…

腫瘍全ゲノムの体細胞変異エンリッチメント解析のための柔軟なツールセット MutEnricher

腫瘍の全エキソームから体細胞変異を解析することで、新規のガンドライバー遺伝子の発見が加速されている。しかし、ゲノムの約98%はノンコーディングであり、その中には変異によって正常な細胞機能が損なわれる可能性のある調節エレメントも含まれている。一…

シロイヌナズナの生物学的特徴を調べるFINderデータベース

近年の計算機アプローチや実験ワークフローの進歩により、ゲノムワイドな生物学的・ゲノムデータを比較的容易に、かつ一般的に取得することができるようになった。このハイスループット・データは、数百種類の植物のDNA(配列、メチル化、クロマチンアクセシ…

ロングリードのアセンブルとエラー訂正によるコンセンサス配列の生成パイプライン MAECI

ナノポアシーケンスは長いリードを生成し、特にドラフト細菌ゲノムのアセンブリにおいて、次世代シーケンシングと比較してユニークな利点を提供する。しかし、データの特性やアセンブリアルゴリズムに起因するアセンブリエラーが発生することがある。これら…

clusterProfilerを使ってGO Enrichment Analysisを行う

2022/05/23 step5を画像に差し替え 先日clusterProfilerを使ってKEGG termのエンリッチメント解析を行う例を紹介しました。今回はclusterProfilerを使ってGO Enrichment Analysisを行う流れを紹介します。Bioconductor AnnotationData Packages(link)とし…