macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

2018

真核生物の比較ゲノミクスのためのゲノムブラウザ Genomicus

Genomicusは、真核生物の比較ゲノミクスに特化したデータベースおよびウェブサーバである。Genomicusの主な機能は、複数のゲノム間でのゲノムブロックの保存状態をグラフィカルに表現することであり、特定の遺伝子を中心とした局所的な保存状態や、核型比較…

Circosプロットをインタラクティブに作成するためのR/Shinyアプリケーション shinyCircos

Circosプロットの作成は、ゲノムデータを視覚化する最も効率的なアプローチの一つである。しかし、Circosプロットを作成するための既存のツールをインストールして使用することは、コーディングの経験がないユーザーにとっては難しい。この問題を解決するた…

大量のタンデムリピート構造を含むゲノムをインタラクティブに可視化する StainedGlass

2022/01/13 論文引用 ドットプロット解析は、配列の同一性や方向性の違いのような複雑なリピートの基礎構造を明らかにするためによく用いられる。ロングリードシーケンス技術の進歩により、最近ではますます連続したリファレンスゲノムのアセンブリやヒトの…

複雑なデータをヒートマップで可視化するためのRパッケージ Superheat

2021 08/11 データのロード追記 テクノロジーの進歩により、科学分野をはじめとする膨大な量のデータを収集することが可能になった。従来のデータ可視化ツールは、高次元環境ではうまく機能しないため、このような膨大なデータセットから有用な情報を抽出す…

オルガネラゲノムの遺伝子の多重整列を自動で構築するパイプライン

オルガネラの系統解析を行うためには、あらかじめアラインメントされた単一遺伝子データセットを連結したマルチ遺伝子アラインメントマトリクスを正確に構築する必要がある。しかし、数十から数百の相同遺伝子からなる高品質なマルチ遺伝子アラインメントを…

HTSデータを扱う様々なツールをGUIインターフェースで統合した TBtools

ハイスループットシーケンス(HTS)データからの情報マイニング用にさまざまなソフトウェアまたはパイプラインが開発されているが、それらのほとんどは、ほとんどの生物学者が馴染みのないプログラミングおよびコマンドライン環境に依存している。 ユーザー…

European Nucleotide Archiveへのゲノムアノテーションサブミットを容易にするコンバーター EMBLmyGFF3

過去20年にわたり、多くのシーケンスアノテーションツールが開発され、生命のツリーのすべてのkingdomの幅広い生物の比較的正確なアノテーションの作成を容易にしている。ゲノム内で注釈が付けられた機能を記述するために、Generic Feature Format(GFF)が…

計算生物学のシンタックスハイライトパッケージ bioSyntax

計算生物学では、生物学的データファイルの読み取りと理解が必要になる。SAM、VCF、GTF、PDB、FASTAなどの平文フォーマットには、データ構造の複雑さによって難読化された重要な情報が含まれていることが多い。bioSyntax (https://biosyntax.org/) は、vim、…

エピゲノムプロファイルを用いた転写因子予測ツール BART

ある遺伝子セットを制御する機能的な転写因子の同定は、遺伝子制御研究において重要な問題である。従来の転写因子の同定方法であるDNA配列モチーフ解析では、特定の因子の機能的な結合を予測することができず、遠位のエンハンサーに結合する因子を検出するに…

原核生物のゲノム構造を利用してリボソーム領域全体をアセンブルする riboSeed

バクテリアのゲノムシーケンスの大部分は、イルミナのショートリードを用いて行われている。しかし、ショートリードだけでは繰り返し領域を解決することが難しいため、クローズドなゲノムを得ることができたのは、シーケンスプロジェクトの約10%に過ぎなかっ…

メタゲノムデータセットのカバレッジを推定する Nonpareil 3

2021 4/27 誤字修正 2018年のNonpareil3の論文より メタゲノムデータセットに基づく微生物群集の多様性の推定は、不十分な網羅性やリファレンスデータベースに依存する多様性の推定に起因するバイアスの影響を受け、その程度は未知数であることが多い。例え…

曖昧さを考慮したドットプロットによる視覚的な配列解析を行う FlexiDot

FlexiDotはクロスプラットフォームのドットプロットスイートで、高品質の自己、ペアワイズ、all versus allのビジュアライゼーションを生成する。コンセンサス配列とエラーの多い配列を比較する際のドットプロットの適合性を向上させるために、FlexiDotは曖…

ドラフトアセンブリからプラスミドを同定する MOB-suite

コストパフォーマンスの高いIllumina社のショートリードシーケンシングにより、大規模な細菌集団遺伝学研究が日常的に行われるようになった。しかし、プラスミドのアセンブリが不完全であるため、プラスミドの含有量を分析することは依然として困難である。…

バクテリアゲノムデータセットからリンクされた遺伝子を探す SLING

オペロンおよび機能的に連結された遺伝子アレイは原核生物ゲノムにおける転写構成の最も基本的な単位を表す。同じプロセスまたはパスウエイに関与する遺伝子は単一のブロックにコードされ、同じ調節の下で転写される。多くの臨床的に重要な遺伝子システムが…

ピークコールを行う YAPC

Githubより YAPCはATAC-seq、DNase-seq、ChIP-seqなどのゲノムハイスループットシーケンシングデータ用のピークコーラーである。1つのタイムポイントにつき2つの生物学的複製を持つ時系列データセット(または複数の条件を持つその他のデータ)において、特…

GET_PHYLOMARKERS

ゲノム配列が公開データベースに大量に蓄積されたことにより、生物学研究の多くの分野でゲノムレベルの系統解析が盛んに行われるようになった。しかし、様々な進化や遺伝的過程により、多くの遺伝子座が系統樹の再構築には好ましくない特性を持っている。こ…

ディープラーニングを用いた微生物ゲノムのビニングツール Vamb

2021 7/27 論文追記 2022/02/19 インストール手順修正 メタゲノミクスワイドゲノム配列データからの微生物種の同定と再構築は、重要かつ挑戦的な課題である。現在の既存のアプローチは、複数のサンプルにわたる遺伝子またはコンティグの共分散情報と、配列中…

: 高次元データのクラスタリングと可視化のためのインタラクティブな教育用ウェブリソース ClusterEnG

クラスタリングは、何らかの尺度に従って類似したデータポイントをグループ化することにより、大規模データセットの構造を発見するための最も強力で広く利用されている分析手法の一つである。R(R Core Team, 2015)やPython(Pedregosa et al., 2011)のような…

ヒトとマウスの ロングノンコーディングRNAのアノテーションをつける lncFunTK

ロングノンコーディングRNA(lncRNA)とは、200塩基より長いノンコーディング転写物を指す。現在までに、約58,000のlncRNAが様々な細胞型・組織に集積されているが、そのうち79%が新規性の高いものであり、その生物学的機能は未だ解明されておらず(Iyer et a…

ChIP-Atlas

代表的なモデル生物6種(ヒト、マウス、ラット、ミミズバエ、線虫、出芽酵母)から得られた公開されているクロマチン免疫沈降シークエンス(ChIP-seq)とDNase-seqデータ(n>70,000)を完全に統合し、ChIP-Atlas(http://chip-atlas.org)と名付けられたデー…

kallistoのアセンブリツールabeona

(途中まで省略) アノテーション付きのリファレンスゲノムを持つ生物のハイブリッドシーケンシング研究により、Iso-Seqリードを含める転写産物アイソフォームの選択的スプライシングに対する感度が向上したという証拠が見つかった。(一文省略) Iso-Seqリ…

ユーザー提供のゲノムfastaからwgMLSTおよびcgMLST解析 を行う chewBBACA

細菌ゲノム疫学やアウトブレイク検出において、遺伝子ごとのアプローチがますます普及してきている。しかし、これらの方法論のためのスキーマ定義や対立遺伝子呼び出しのためのオープンソースのスケーラブルなソフトウェアが不足している。chewBBACAスイート…

LTRレトロトランスポゾンを識別可能な割合でゲノムアセンブリを評価するIndex; LAI

2020 11/7 タイトル修正 2020 11/8 感想追加 2020 11/11 誤字修正, タイトル修正(”主に植物”を削除) 構造的特徴に基づくコンピュータプログラムを用いたLTR要素の同定は効率的であるが(10,11)、多数の偽陽性(4)に悩まされている。最近、インタクトなLTRレ…

ゲノムアセンブリからLTR-RTを同定する LTR_retriever

2020 11/6 追記 Long terminal repeat retrotransposons (LTR-RT)は植物ゲノムに多く存在する。LTR-RTの同定は、高品質な遺伝子アノテーションを実現するために重要である。しかし、これらのプログラムは特異性が低く、偽発見率が高いという問題があった。こ…

fastqのクオリティ分析を行う Quack

ハイスループットDNAシーケンシングツールによって生成されたデータの品質は、そのデータが生物学的発見にどの程度役立つかを判断するために迅速に評価されなければならない。データセットのサイズがますます大きくなり、迅速な品質評価が重要になっているた…

入力プロテオームから類似したタンパク質のデータベースを自動検索し、プロテオームから近い種を調べる AAI-profiler

全ゲノムショットガンシーケンスは、分類学的分類の再評価を推進し、シングルセルゲノミクスの出現は生物多様性に関する知識を大きく広げている(1)。これらすべての応用分野において、分類学的分類に関するオリジナルの文献を検索するよりも、配列データを直…

注釈付きで検索可能な微生物のインベントリ The Microbe Directory

次世代シークエンシング技術の出現により、ここ10年で、ヒトのマイクロバイオームから環境(水や土壌)、都市の表面に至るまで、メタゲノムやマイクロバイオーム研究が急増している。これらの研究はすべて、発見された配列をサンプルに見られる分類学的プロ…

マルチプルシーケンスアラインメントを行う Clustal Omega

Clustal Omega は、複数配列のアラインメント(MSA)を作成するためのパッケージである。利用可能な配列数が大幅に増加していることと、大きな配列を迅速かつ正確に作成する必要性に対応するために、約10年前に開発された。過去30年間で最も広く使われてきた…

インタラクティブなレポートを出力するONTのクオリティコントロールツール pycoQC

2020 7/21 コマンドでダブルスペースになっていた部分を修正 核酸のナノポアシーケンシングは、開発に30年近くを要し、現在では合成法によるシーケンシングの代替手段として確固たる地位を確立している(Deamer, Akeson, & Branton, 2016)。オックスフォード…

2倍体ゲノムアセンブリからHaplotigsを追い出してPrimary contigsを出力する Purge Haplotigs

2020 7/11 図追加 2020 7/13 タイトル修正 2020 7/15 コメント追記 2021 12/23 コメント追加 第三世代の1分子シーケンシングにおける最近の進歩は、非常に高いレベルの連続性と完全性を持つde novoゲノムアセンブリを可能にした。さらに、最近の「diploid a…