macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

human genome

(ヒトゲノム) DNAとタンパク質配列を操作するためのwebツール SeqCAT

異なる形式の配列座標やリファレンスゲノムを扱うことは、遺伝学研究において課題となる。この複雑性は、異なる命名規則を用いる多様なデータソースを変換・調和させる必要性から生じる。手動処理は時間がかかり専門知識を要するため、遺伝データセットの日…

(ヒト向け) 家系図を作図するwebツール DrawPed

家系図の作成は生物医学研究において繰り返し行われる作業だが、複雑なヒトの家系図を描画できるオンラインツールは少なく、無料のものはさらに限られている。DrawPedはこのギャップを埋めることを目的としている。DrawPedは標準的なPED形式の家系図ファイル…

RNA:DNA三重鎖の予測と解析のためのインタラクティブなプラットフォーム 3plex Web

Long non-coding RNAs(lncRNA)は、タンパク質やDNAを含む他の分子と協調することでその機能を発揮する。一本鎖RNA(ssRNA)と二本鎖DNA(dsDNA)の相互作用によって形成される三重鎖構造(トリプレックス)は、lncRNAが生体内で特定のゲノム配列を標的とす…

ヒトNGSデータにおけるコンタミネーションと血縁関係の検出、定量ツール NGSTroubleFinder

品質管理はNGSパイプラインの基本的なステップであるが、軽視されがちである。クロスサンプルコンタミネーションやサンプルスワップのような問題を検出することは、データの完全性を管理するために不可欠である。ここでは、ヒトの全ゲノムおよび全トランスク…

ロングリードからphased local assemblyにより2倍体ゲノムの構造変異とindelを正確に同定する VolcanoSV

構造変異(SV)はヒトゲノムの多様性に大きく寄与し、精密医療において重要な役割を果たす。一分子ロングリードシーケンシング技術の進歩はSV検出に画期的な資源を提供するものの、SVの切断点と配列を正確かつ堅牢に特定することは依然として困難である。本…

ロングリードデータから正確に構造変異を検出する SVsearcher

構造変異(SV)は、50bpを超えるサイズのゲノム再編成(欠失、挿入、反転など)を指す。これらは遺伝性疾患や進化メカニズムにおいて重要な役割を果たす。ロングリードシーケンシング技術(PacBioロングリードシーケンシングやOxford Nanopore(ONT)ロング…

重複遺伝子のコピー数をマッピングデータから推定する parascopy

ヒトゲノムには数百の低コピー反復配列(LCR)が存在するが、コピー数のばらつきが大きく、リードマッピングがあいまいなため、ショートリードシーケンス技術による解析は困難である。LCRに重複する150以上の重複遺伝子のコピー数および配列の変異は、単発性…

HiFiロングリードを使ってゲノムアセンブリの高精度なポリッシングを行う DeepPolisher

正確なゲノムアセンブリは生物学的研究に不可欠であるが、どんなに高品質なアセンブリであっても、それを構築するために使用された技術によって引き起こされたエラーは残る。通常、塩基レベルのエラーは、ドラフトアセンブリにアライメントされたリードを用…

Copy number variationを検出する CNVnator

コピー数バリエーション(CNV)を含むゲノム構造変化(SV)は、ヒト個体間のバリエーションに大きく寄与し、SNPと同様にヒト表現型に大きな影響を及ぼすと考えられている(論文より Feuk et al、2006; Sharp et al、2006)。当初、CNVはSNPおよびCGHアレイデ…

キュレーションされたgene lossに関するデータベース Gene Loss DB

分子データベースは実験生物学者にとっても計算生物学者にとっても不可欠なリソースである。高品質なゲノムアセンブリの急速な増加により、脊椎動物の多様なグループにわたる系統特異的適応に関連する二次的な遺伝子消失事象について記述した出版物が急増し…

NCBIのRefSeqデータベースで利用可能な全ゲノムのデータに簡単にアクセスできる包括的データベース GBRAP

進化研究においては、生命のあらゆる領域にわたるゲノム情報の広範な調査が必要である。GenBankを通じて多数のゲノムが利用可能であるにもかかわらず、ゲノム情報の効果的な可視化や比較は、そのサイズなど多くの理由から困難である。ゲノムファイルを解析す…

パンゲングラフによって遺伝子含有量を探索する pangene

遺伝子内容は生物の生物学的性質を制御しており、種間および同一種内の個体間で変化する。細菌ゲノムにおける遺伝子内容の変化を特定するツールは開発されているが、ヒトパンゲノムのような大規模な真核生物ゲノムのコレクションには適用可能なものは存在し…

minimap2インデックスに既知バリアント情報を組み込むことで、WGSでのSNVコールを改善する minimap2_index_modifier

リファレンスゲノム配列に対するリードのアライメントは、次世代シーケンサー(NGS)技術によって得られたヒト全ゲノムシーケンスデータの解析における重要なステップの1つである。遺伝的変異の臨床的解釈の結果やゲノムワイド関連研究GWASの結果など、その…

(ヒト)AlphaFoldでモデル化されたタンパク質間相互作用のデータベース Predictomes

タンパク質間相互作用(PPI)は生物学において普遍的なものであるが、生化学的プロセスの根底にあるPPIの包括的な構造解析は不足している。AlphaFold-Multimer(AF-M)はこの知識のギャップを埋める可能性を秘めているが、標準的なAF-Mの信頼性指標では、関連す…

パンゲノムに基づいて構造変異をコールする svarp

現在私たちが使用しているリニアなヒトリファレンスゲノムは、全世界のヒト集団のハプロタイプ多様性を表現していない。そのため、ゲノムリードのアライメントに偏りが生じ、特に多型性の高い遺伝子座における大きな構造変異(SV)の検出が制限される。した…

(ヒト)遺伝子スクリーニングの結果をタンパク質の配列と構造にリンクする Genomics 2 Proteins portal

近年のAIを用いた手法の進歩は、構造生物学の分野に革命をもたらした。それと同時に、ハイスループットシークエンシングと機能的ゲノミクス技術により、バリアントの検出と生成がかつてない規模で可能になった。しかし、バリアントをタンパク質構造に「マッ…

HGVS命名法をチェックする Mutalyzer

ヒトのDNAバリアントを記述のスタンダードとして、HGVS Nomenclature という記述のルール(命名則)が存在する。これはバリアントをどのように曖昧なく記述するべきかのガイドラインで、snpeffなどのアノテーションツールは、このスタンダードに従ってバリア…

どれだけ知られていないかを基にタンパク質をランク付けする Unknomeデータベース

ヒトゲノムには約2万個のタンパク質がコードされているが、その多くはまだ解明されていない。科学研究は、よく研究されているタンパク質に焦点を当てがちであることは明らかであり、未解明の遺伝子が不当に軽視されているという懸念につながっている。この問…

(ヒトとマウス)マルチオミクスデータを探索するウェブサーバ  ExpressVis

ライフオミクスの時代、膨大な量のマルチオミクスデータが生成され、生物医学研究に広く利用されるようになった。プログラミングスキルの低い生物学者がマルチオミクスデータから生物学的知見を得ることは困難である。そのため、複雑なオミクスデータを扱い…

複数のライブラリにまたがるエンリッチメント解析を行う Enrichr-KG

遺伝子およびタンパク質セットのエンリッチメント解析は、オミックス実験から収集されたデータの解析において重要なステップである。Enrichrは、数十万件の注釈付き遺伝子セットを含む、人気のある遺伝子セットエンリッチメント解析ウェブサーバー検索エンジ…

(ヒト)遺伝子発現解析のためデータ可視化とパスウェイエンリッチメント解析を統合したウェブツール STAGEs

遺伝子発現プロファイリングは、生物学的プロセスや疾患の理解に多大な貢献をしてきた。しかし、データ可視化ツールやパスウェイ解析ツールの多くは、膨大なデータフォーマットを必要とするため、特にバイオインフォマティシャンでない人にとっては、処理さ…

1行のコードでゲノムデータベースへの様々な問い合わせを行う gget

ゲノムデータの解釈には、既存のリファレンスデータベースとの関連で結果を評価することが繰り返し課題となっている。コマンドラインやPythonの利用者が増加する中、大規模な公開ゲノムデータベースの多様なコレクションに保存されているキュレーションされ…

(ヒト)ノンコーディングRNAとKEGGシグナル伝達パスウェイの可視化およびエンリッチメント解析を行う NcPath

非コードRNAは転写プロセスにおいて重要な役割を果たし、様々な生物学的機能の制御に関与している。特にmiRNAやlncRNAが重要である。しかし、既存のシグナル伝達パスウェイデータベースには、miRNAやlncRNAに関する情報は含まれていない。そこで本著者らは、…

ヒトゲノム領域の包括的エンリッチメント解析ソフトウェア GREAP

ゲノムのハイスループットシーケンスの急速な発展により、豊富なエピジェネティクスマーカーを持つDNA制御要素が多数同定され、機能性ゲノム領域データの急速な蓄積が促進されている。ヒトの機能性ゲノム領域の網羅的な理解と研究は、現在でも比較的急務の課…

ヒトの遺伝子と転写産物の総合カタログ CHESS 3

ヒト遺伝子のCHESSデータベース(Comprehensive Human Expressed SequenceS)は、Genotype-Tissue Expression (GTEx)プロジェクトで作成されたヒト53部位における約1万件のRNAシーケンス実験から構築され、さらに他のデータベースからの遺伝子を加えて、タン…

ネットワークベースのパスウェイアノテーションのためのウェブサーバー PathBIX

パスウェイアノテーションは、生命科学における実験データを解釈し、意味を与えるための重要なツールである。このタスクのために数多くのツールが存在するが、最新世代のパスウェイエンリッチメント解析ツールであるネットワークベース法は、単に遺伝子の内…

ゲノムワイドなスプライシング効率を定量する SPLICE-q

一般にイントロンは一次転写産物から取り除かれ、成熟RNA分子を形成するために、スプライシングと呼ばれる転写後プロセスが行われる。一次転写産物の効率的なスプライシングは、遺伝子発現に不可欠なステップであり、その制御ミスは多くのヒト疾患に関連して…

(ヒト)バリアントの機能的アノテーションリソース FAVOR

大規模な全ゲノムシークエンシング(WGS)研究とバイオバンクにより、多数のコーディングおよびノンコーディングバリアントが急速に生成されている。これらは、ヒト疾患の遺伝的基盤を明らかにするための前例のないリソースを提供する。バリアント機能アノテ…

シングルブレイクエンドバリアントと構造バリアントのフェージングにより体細胞構造変異の包括的な評価を行う GRIDSS2

GRIDSS2 は、片側のみが明確に決定できるブレイクポイントであるシングルブレイクエンドを明示的に報告する初めての構造的バリアントコーラーである。シングルブレイクエンドをブレイクポイントと同様に基本的なゲノムリアレンジメントシグナルとして扱うこ…

大規模な遺伝子バリアントアノテーションのための統合的かつ対話的なプラットフォーム Annotation Query (AnnoQ)

Annotation Query (AnnoQ) (http://annoq.org/)は、ヒトの遺伝子バリアントに対して包括的かつ最新の機能アノテーションを提供するために設計されている。このシステムは、Haplotype Reference Consortium (HRC) の約3900万個のヒトバリアントに、WGSAによる…