macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

sequence clustering

ウイルスゲノムの超高速・高精度配列アライメント、ANI計算とクラスタリングを行う vclust

Viromicsは毎年数百万個のウイルスゲノムと断片を産生し、従来の配列比較法を圧倒している。Vclustは、Lempel-Ziv構文解析によって平均塩基同一性を決定し、権威ある viral genomics and taxonomy consortiaによって承認された閾値でウイルスゲノムをクラス…

クラスター化された原核生物ウイルスタンパク質ファミリー PHROG

ウイルスは豊富で多様性に富み、先祖伝来の生物学的実体である。その多様性は、遭遇する様々なタンパク質ファミリーの数においても、各タンパク質ファミリーの配列の不均一性においても高い。近年、ウイルスゲノムの塩基配列が解読されつつあり、このような…

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な…

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

Foldseekのeasy-searchコマンドとeasy-clusterコマンド

2023/07/08 追記 構造予測手法が何百万もの一般に利用可能なタンパク質構造を生成しているため、これらのデータベースを検索することがボトルネックになりつつある。Foldseekは、タンパク質内の3次アミノ酸相互作用を構造アルファベット上の配列として記述す…

タンパク質配列データベースをクラスタリングするDiamondのclusterコマンド (DIAMOND DeepClust)

2023/03/02 プレプリント追記、タイトル修正 wikiより Diamondは、CD-HITやUClustと同様に、ユーザーが定義したクラスタリング基準に基づいて配列をクラスタリングし、セントロイドまたは代表配列のセットを見つけ、クラスタリング基準対セントロイドが満た…

MinHashスケッチで数百万個のバクテリアゲノムの高速クラスタリング解析を可能にする RabbitTClust

スケッチベースの距離推定に基づく、高速でメモリ効率の良いゲノムクラスターツールRabbitTClustを紹介する。本手法は、次元削減技術とストリーミング、最新のマルチコアプラットフォーム上での並列化を組み合わせることで、大規模データセットの効率的な処…

多様なヒートマップを作図できるwebサービス Heatmapper

2021 1/19 誤字修正 Heatmapperは自由に利用できるWebサーバであり、ユーザーは使いやすいグラフィカルなインターフェースを使って、データをヒートマップの形でインタラクティブに視覚化することができる。既存の非商用のヒートマップパッケージは、グラフ…

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

2021 1/12 helpと解析例追加 2022/04/19 ツイート追加 ナノポアを用いた1分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスク…

配列をクラスタリングする Sumaclust

次世代シーケンシングの開発により、数百万のシーケンスを妥当な時間で処理するための効率的なツールが必要になる。Sumaclustは、LECAによって開発されたプログラムで、高速かつ正確な方法でシーケンスをクラスター化することを目的としている。 このツール…

多機能な配列処理ツール VSEARCH(USEARCHの代替)

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 2024/06/17 追記 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩…

viral quasispeciesのクラスタリング(binning)ツール VirBin

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている(Sullivan et al、2007; PerrinおよびTelenti、1998)。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

MMseqs2 コマンド其の2 タンパク質配列のクラスタリング

インストール 以前の記事を参照 > mmseqs $ mmseqs MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast, parallelized protein sequence searches and clustering of huge protein sequence data sets. Please…

オルソログとパラログを小メモリ使用量で高速探索する SwiftOrtho

2019 10/26 論文引用追加 2020 10/9 インストール手順の誤りを修正 Gene homology type classification は、種を越えてパラログおよびオルソログを同定することからなる。オルソログは共通の先祖遺伝子から分化後に進化した遺伝子であり、パラログはduplicat…

ロングリードのde novo transcriptomeのクラスタリングツール isONclust

Pacific Biosciences(PacBio)Iso-SeqおよびOxford Nanopore Technologies(ONT)を用いた転写産物のロングリードシークエンシングは、植物[ref.6]、真菌[ref.7]、ウイルス[ref.8]、ヒトなどの複雑なアイソフォームランドスケープの研究の中心となることが…

proteomeをクラスタリングするデータベース FastaHerder2

タンパク質データベースのますます加速する成長により配列類似性および配列保存によるタンパク質機能研究に対して大きな可能性が提供される。しかしながら、これらのデータベースに蓄積された膨大な数のタンパク質配列はデータを分析しそしてオーガナイズす…

複数のtranscritome情報(gtf)をマージする TACO

2023/01/04 追記 ハイスループットRNAシークエンシング(RNA-Seq)により、トランスクリプトームの詳細な理解が可能になった(ref.1–3)。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエン…

共通 / 非共通の遺伝子リストなどをベン図やヒートマップで視覚化する intervene

次世代のシークエンシングベースのハイスループットアッセイによって生成されたトランスクリプトームデータ、ゲノムデータ、およびエピゲノムデータの効果的な可視化は、大きな関心の対象となっている。そのようなアッセイによって生成されたデータセットの…

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス(NGS)は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

UMIタグつきraw シーケンシングリードをクラスタリングする calib

次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな…

共発現遺伝子の自動クラスタリングツール CLust

遺伝子の転写は、すべての生物において動的かつ協調的に調節される。そのような協調的調節は、時系列およびperturbation-responseデータセット (参考HP) における転写産物の協調的変化として明白である。遺伝子の転写は、遺伝子のプロモーター領域またはエン…

ホストゲノムや汚染配列を検出し、分離を助ける PhylOligo

シーケンシング技術の発展により、複雑な非モデル生物ゲノムおよび生物共同体のゲノムをシーケンシングの標的とすることが可能になった。これらの非モデル生物のいくつかは、それらの環境から単離することが困難だったりin vitroでクローン化ができなかった…

クラスタリングツール Starcode

すべてのシーケンシング技術はある程度の不正確さを持っている。例えば、Illuminaプラットフォーム(Margulies et al、2005)は、 主に置換からなる1〜2%のエラー率を有し(Dohm et al、2008; Nakamura et al、2011)、PacBioプラットフォームは挿入および…

クラスタリングツール MeShClust

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ(論文より ref.1-6)およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール(ref.…

高速かつ高感度なプロテイン検索ツール MMseqs2

2019 3/18 タイトル修正、 5/7 タイトル修正、5/20 インストール追記、 8/25 twtwitter追記、12/29, 2021 9/15インストール追記 2024/11/14 GPU追記 DNAシーケンシングのスループットは、過去10年間で計算速度よりもはるかに速くなってきており、感度の高い…

インタラクティブなヒートマップを簡単に作成できるwebツール shinyheatmap

ヒートマップソフトウェアは、一般に、静的ヒートマップソフトウェア (static heatmap software) [論文より ref.1-9]とインタラクティブヒートマップソフトウェア (interactive heatmap software) [ref.10-20]の2つのカテゴリに分類することができる。静的ヒ…

SuperTranscripts 其の1

ハイスループットシークエンシングは、cDNA配列のシーケンスを可能にし、単一の手頃なアッセイを用いて発現レベルを定量化することができるため、トランスクリプトミクスに革命をもたらした[論文より ref.1,2]。 RNAシークエンシング(RNA-seq)は、遺伝子レ…

(RNA seq) 複数のde novoアセンブリ結果をマージし、冗長なcontigを除く DRAP

第二世代シークエンシングプラットフォームは、多種多様な種および条件の遺伝子発現を分析することを可能にする、多量の転写産物のシーケンスデータの生成を可能にした。リファレンスゲノム配列を欠く種については、現在の古典的なプロセシングパイプライン…

de novo transcriptomeのcontigクラスタリングツール Corset

2019 6/11 インストール追記 RNA-seqは、トランスクリプトームの様々な側面を研究するための強力な技術である。それは、遺伝子発見、選択的スプライシングイベントの検出、継時的発現分析、融合の検出、SNPおよび転写後エディティングなどの変異の同定を含む…

fastqをクラスタリングする QCluster

次世代シーケンシング(NGS)技術によって生成されるデータ量は、現在のコンピュータシステムのストレージおよびデータ処理能力に挑戦しているペースで増加している[ref.1]。現在の技術は1回の実行で5千億本以上のDNAを生産し(論文執筆時点)、今後のシーケ…