macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018

大規模な系統学的データセットを削減する Treemmer

大規模な塩基配列データセットは、視覚化するのも扱うのも難しい。さらに、それらはしばしば自然の多様性のランダムなサブセットを表しているのではなく、調整されていない便宜的なサンプリングの結果である。その結果、冗長性やサンプリングバイアスに悩ま…

突然変異蓄積実験(MA experiment)用にデザインされた変異コーラー accuMUlate

突然変異蓄積(MA)実験(wiki)は、突然変異の影響を直接研究するために最も広く用いられている方法である。MA株から全ゲノムを配列決定することにより、研究者は自然突然変異の発生率と分子スペクトルを直接研究することができ、これらの結果を用いて突然…

統計モデルを使った倍数性推定を行う nQuire

酵母や真菌などの病原性真核生物や非病原性真核生物など、様々な生物種で種内変異が起こっている。次世代シーケンサー(NGS)を用いた実験から、DNA量を測定することなく、間接的に倍数体を推定することができる。著者らは、NGSを用いて2倍体、3倍体、4倍体…

イントロン位置の保存性とRNA-seqを活用したホモロジーに基づく遺伝子予測を行う GeMoMa

明けましておめでとうございます。今年もよろしくお願いいたします。 今年も忙しくなりそうなので、更新できるタイミングがあれば積極的に更新していきます。 GeMoMaは、進化的に関連するリファレンス種の遺伝子モデルを基に、対象種の遺伝子モデルを予測す…

Demultiplexingを行う fgbioのDemuxFastqsコマンド

fgbioはディープシーケンシングデータを扱うためのコマンドラインツールキット。リードレベルのデータ(FASTQ、SAM、BAMなど)やバリアントレベルのデータ(VCF、BCFなど)を操作する。特に次のようなものを提供することに重点を置いている(Githubより)。 …

UCSF ChimeraX内でColabFoldを使う

2021年の論文より UCSF ChimeraX は、UCSF Chimera に続く、Resource for Biocomputing, Visualization, and Informatics (RBVI) による次世代対話型可視化プログラムである。ChimeraXは、(a) パフォーマンスとグラフィックスの大幅な向上、(b) Chimeraで最…

真核生物の比較ゲノミクスのためのゲノムブラウザ Genomicus

Genomicusは、真核生物の比較ゲノミクスに特化したデータベースおよびウェブサーバである。Genomicusの主な機能は、複数のゲノム間でのゲノムブロックの保存状態をグラフィカルに表現することであり、特定の遺伝子を中心とした局所的な保存状態や、核型比較…

Circosプロットをインタラクティブに作成するためのR/Shinyアプリケーション shinyCircos

2023/11/01 URL修正 Circosプロットの作成は、ゲノムデータを視覚化する最も効率的なアプローチの一つである。しかし、Circosプロットを作成するための既存のツールをインストールして使用することは、コーディングの経験がないユーザーにとっては難しい。こ…

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

複雑なデータをヒートマップで可視化するためのRパッケージ Superheat

2021 08/11 データのロード追記 テクノロジーの進歩により、科学分野をはじめとする膨大な量のデータを収集することが可能になった。従来のデータ可視化ツールは、高次元環境ではうまく機能しないため、このような膨大なデータセットから有用な情報を抽出す…

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン HomBlocks

オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを…

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

ハイスループットシーケンス(HTS)データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。 ユーザー…

European Nucleotide Archiveへのゲノムアノテーションサブミットを容易にするコンバーター EMBLmyGFF3

過去20年にわたり、多くのシーケンスアノテーションツールが開発され、生命のツリーのすべてのkingdomの幅広い生物の比較的正確なアノテーションの作成を容易にしている。ゲノム内で注釈が付けられた機能を記述するために、Generic Feature Format(GFF)が…

計算生物学のシンタックスハイライトパッケージ bioSyntax

計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…

エピゲノムプロファイルを用いた転写因子予測ツール BART

ある遺伝子セットを制御する機能的な転写因子の同定は、遺伝子制御研究において重要な問題である。従来の転写因子の同定方法であるDNA配列モチーフ解析では、特定の因子の機能的な結合を予測することができず、遠位のエンハンサーに結合する因子を検出するに…

原核生物のゲノム構造を利用してリボソーム領域全体をアセンブルする riboSeed

バクテリアのゲノムシーケンスの大部分は、イルミナのショートリードを用いて行われている。しかし、ショートリードだけでは繰り返し領域を解決することが難しいため、クローズドなゲノムを得ることができたのは、シーケンスプロジェクトの約10%に過ぎなかっ…

メタゲノムデータセットのカバレッジを推定する Nonpareil 3

2021 4/27 誤字修正 2018年のNonpareil3の論文より メタゲノムデータセットに基づく微生物群集の多様性の推定は、不十分な網羅性やリファレンスデータベースに依存する多様性の推定に起因するバイアスの影響を受け、その程度は未知数であることが多い。例え…

曖昧さを考慮したドットプロットによる視覚的な配列解析を行う FlexiDot

FlexiDotはクロスプラットフォームのドットプロットスイートで、高品質の自己、ペアワイズ、all versus allのビジュアライゼーションを生成する。コンセンサス配列とエラーの多い配列を比較する際のドットプロットの適合性を向上させるために、FlexiDotは曖…

ドラフトアセンブリからプラスミドを同定する MOB-suite

コストパフォーマンスの高いIllumina社のショートリードシーケンシングにより、大規模な細菌集団遺伝学研究が日常的に行われるようになった。しかし、プラスミドのアセンブリが不完全であるため、プラスミドの含有量を分析することは依然として困難である。…

バクテリアゲノムデータセットからリンクされた遺伝子を探す SLING

オペロンおよび機能的に連結された遺伝子アレイは原核生物ゲノムにおける転写構成の最も基本的な単位を表す。同じプロセスまたはパスウエイに関与する遺伝子は単一のブロックにコードされ、同じ調節の下で転写される。多くの臨床的に重要な遺伝子システムが…

ピークコールを行う YAPC

Githubより YAPCはATAC-seq、DNase-seq、ChIP-seqなどのゲノムハイスループットシーケンシングデータ用のピークコーラーである。1つのタイムポイントにつき2つの生物学的複製を持つ時系列データセット(または複数の条件を持つその他のデータ)において、特…

GET_PHYLOMARKERS

ゲノム配列が公開データベースに大量に蓄積されたことにより、生物学研究の多くの分野でゲノムレベルの系統解析が盛んに行われるようになった。しかし、様々な進化や遺伝的過程により、多くの遺伝子座が系統樹の再構築には好ましくない特性を持っている。こ…

ディープラーニングを用いた微生物ゲノムのビニングツール Vamb

2021 7/27 論文追記 2022/02/19 インストール手順修正 メタゲノミクスワイドゲノム配列データからの微生物種の同定と再構築は、重要かつ挑戦的な課題である。現在の既存のアプローチは、複数のサンプルにわたる遺伝子またはコンティグの共分散情報と、配列中…

: 高次元データのクラスタリングと可視化のためのインタラクティブな教育用ウェブリソース ClusterEnG

クラスタリングは、何らかの尺度に従って類似したデータポイントをグループ化することにより、大規模データセットの構造を発見するための最も強力で広く利用されている分析手法の一つである。R(R Core Team, 2015)やPython(Pedregosa et al., 2011)のような…

ヒトとマウスの ロングノンコーディングRNAのアノテーションをつける lncFunTK

ロングノンコーディングRNA(lncRNA)とは、200塩基より長いノンコーディング転写物を指す。現在までに、約58,000のlncRNAが様々な細胞型・組織に集積されているが、そのうち79%が新規性の高いものであり、その生物学的機能は未だ解明されておらず(Iyer et a…

ChIP-Atlas

代表的なモデル生物6種(ヒト、マウス、ラット、ミミズバエ、線虫、出芽酵母)から得られた公開されているクロマチン免疫沈降シークエンス(ChIP-seq)とDNase-seqデータ(n>70,000)を完全に統合し、ChIP-Atlas(http://chip-atlas.org)と名付けられたデー…

kallistoのアセンブリツールabeona

(途中まで省略) アノテーション付きのリファレンスゲノムを持つ生物のハイブリッドシーケンシング研究により、Iso-Seqリードを含める転写産物アイソフォームの選択的スプライシングに対する感度が向上したという証拠が見つかった。(一文省略) Iso-Seqリ…

ユーザー提供のゲノムfastaからwgMLSTおよびcgMLST解析 を行う chewBBACA

細菌ゲノム疫学やアウトブレイク検出において、遺伝子ごとのアプローチがますます普及してきている。しかし、これらの方法論のためのスキーマ定義や対立遺伝子呼び出しのためのオープンソースのスケーラブルなソフトウェアが不足している。chewBBACAスイート…

LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正, タイトル修正(”主に植物”を削除) 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレ…

ゲノムアセンブリからLTR-RTを同定する LTR_retriever

2020 11/6 追記 2023/01/010. 01/11 インストール手順修正 Long terminal repeat retrotransposons (LTR-RT)は植物ゲノムに多く存在する。LTR-RTの同定は、高品質な遺伝子アノテーションを実現するために重要である。しかし、これらのプログラムは特異性が低…