タンパク質ファミリー生成のためのスケーラブルなパイプライン proteinfamilies

メタゲノム由来のアミノ酸配列データの増加は、タンパク質の機能、微生物の多様性、進化的関係に対する我々の理解を大きく変えた。しかし、これらのタンパク質の大部分は依然として機能的に未解明である。このような未解明配列を、少数の実験的に機能が確認…

2024-10-18

ウイルスゲノムの超高速・高精度配列アライメント、ANI計算とクラスタリングを行う vclust

2024 Preprint ANI sequence clustering virus Viromics 高速なツール

Viromicsは毎年数百万個のウイルスゲノムと断片を産生し、従来の配列比較法を圧倒している。Vclustは、Lempel-Ziv構文解析によって平均塩基同一性を決定し、権威ある viral genomics and taxonomy consortiaによって承認された閾値でウイルスゲノムをクラス…

2024-03-31

クラスター化された原核生物ウイルスタンパク質ファミリー PHROG

NAR Genomics and Bioinformatics 2021 Viruses phage sequence clustering database HMM

ウイルスは豊富で多様性に富み、先祖伝来の生物学的実体である。その多様性は、遭遇する様々なタンパク質ファミリーの数においても、各タンパク質ファミリーの配列の不均一性においても高い。近年、ウイルスゲノムの塩基配列が解読されつつあり、このような…

2024-02-18

ロングリードトランスクリプトームの高効率なクラスタリングを行う geluster

2024 Bioinformatics RNA seq sequence clustering

ロングリードRNAシーケンス技術の進歩は、トランスクリプトーム解析に明るい未来をもたらした。ロングリードをその起源遺伝子ファミリーにしたがってクラスタリングすることは非常に重要である。しかし、既存のde novoクラスタリングアルゴリズムは、膨大な…

2024-01-14

ONTのリードからのリファレンスフリーのトランスクリプトーム再構成を行う isONform

2023 Bioinformatics sequence clustering

ロングリードトランスクリプトームシーケンスの進歩により、転写産物の完全な配列決定が可能になり、転写プロセスを研究する能力が大幅に向上した。ロングリードのトランスクリプトームシーケンス技術としては、Oxford Nanopore Technologies (ONT)が有名で…

2023-07-07

Foldseekのeasy-searchコマンドとeasy-clusterコマンド

2023 Nature Biotechnology AlphaFold structural aligners 高速なツール web tool sequence clustering

2023/07/08 追記構造予測手法が何百万もの一般に利用可能なタンパク質構造を生成しているため、これらのデータベースを検索することがボトルネックになりつつある。Foldseekは、タンパク質内の3次アミノ酸相互作用を構造アルファベット上の配列として記述す…

2023-02-10

タンパク質配列データベースをクラスタリングするDiamondのclusterコマンド (DIAMOND DeepClust)

protein search sequence clustering 2023

2023/03/02 プレプリント追記、タイトル修正 wikiより Diamondは、CD-HITやUClustと同様に、ユーザーが定義したクラスタリング基準に基づいて配列をクラスタリングし、セントロイドまたは代表配列のセットを見つけ、クラスタリング基準対セントロイドが満た…

2022-11-23

MinHashスケッチで数百万個のバクテリアゲノムの高速クラスタリング解析を可能にする RabbitTClust

sequence clustering 2022 高速なツール Preprint 2023 Genome Biology

スケッチベースの距離推定に基づく、高速でメモリ効率の良いゲノムクラスターツールRabbitTClustを紹介する。本手法は、次元削減技術とストリーミング、最新のマルチコアプラットフォーム上での並列化を組み合わせることで、大規模データセットの効率的な処…

2021-01-19

多様なヒートマップを作図できるwebサービス Heatmapper

heatmap 2016 Nucleic Acids Research 結果の視覚化 (visualization) sequence clustering sequence comparison geographic distribution SARS-CoV-2

2021 1/19 誤字修正 Heatmapperは自由に利用できるWebサーバであり、ユーザーは使いやすいグラフィカルなインターフェースを使って、データをヒートマップの形でインタラクティブに視覚化することができる。既存の非商用のヒートマップパッケージは、グラフ…

2020-08-17

RNA seqのロングリードをリファレンスフリーでクラスタリングする RATTLE

2020 Preprint sequence clustering Nanopore long read Nanopore direct RNA-seq error correction Genome Biology 2022

2021 1/12 helpと解析例追加 2022/04/19 ツイート追加ナノポアを用いた１分子ロングリードシークエンシングは、あらゆるサンプルからトランスクリプトームを測定する前例のない機会を提供する。しかし、現在の解析方法では、リファレンスゲノムやトランスク…

2019-09-28

配列をクラスタリングする Sumaclust

sequence clustering

次世代シーケンシングの開発により、数百万のシーケンスを妥当な時間で処理するための効率的なツールが必要になる。Sumaclustは、LECAによって開発されたプログラムで、高速かつ正確な方法でシーケンスをクラスター化することを目的としている。このツール…

2019-08-08

多機能な配列処理ツール VSEARCH（USEARCHの代替）

2016 PeerJ fasta/fastqの操作 mask amplicon sequence sequence clustering metagenome rRNA sequence comparison dereplication

2019 8/9 説明の誤り修正 2019 9/15 両鎖クラスタリングのコメント追加 2024/06/17 追記 Rockström et al. (2009) とSteffen et al. (2015) は、生物多様性の損失を人類の短期生存のための主要な脅威として提示した。シークエンシング技術における最近の進歩…

2019-07-28

viral quasispeciesのクラスタリング（binning）ツール VirBin

2019 Preprint quasispecies virus Binning (metagenomics) sequence clustering assembly haplotype

ウイルス集団内の高い遺伝的多様性が、HIV、HCVなどのRNAウイルスによる慢性感染症の患者において観察されている（Sullivan et al、2007； PerrinおよびTelenti、1998）。遺伝的多様性は、異なる株の多重感染、または宿主内でのウイルス複製中の変異によって…

2019-06-28

MMseqs2 コマンド其の2 タンパク質配列のクラスタリング

2017 Nature Biotechnology 高速なツール sequence clustering

インストール以前の記事を参照 > mmseqs $ mmseqs MMseqs2 (Many against Many sequence searching) is an open-source software suite for very fast, parallelized protein sequence searches and clustering of huge protein sequence data sets. Please…

2019-04-13

オルソログとパラログを小メモリ使用量で高速探索する SwiftOrtho

orthologue pan-genome 2019 Preprint sequence clustering テスト失敗 GigaScience

2019 10/26 論文引用追加 2020 10/9 インストール手順の誤りを修正 Gene homology type classification は、種を越えてパラログおよびオルソログを同定することからなる。オルソログは共通の先祖遺伝子から分化後に進化した遺伝子であり、パラログはduplicat…

2019-04-12

ロングリードのde novo transcriptomeのクラスタリングツール isONclust

2018 Preprint sequence clustering de novo transcriptome Alternative splicing Iso-Seq Pacbio Nanopore direct RNA-seq docker

Pacific Biosciences（PacBio）Iso-SeqおよびOxford Nanopore Technologies（ONT）を用いた転写産物のロングリードシークエンシングは、植物[ref.6]、真菌[ref.7]、ウイルス[ref.8]、ヒトなどの複雑なアイソフォームランドスケープの研究の中心となることが…

2019-04-06

proteomeをクラスタリングするデータベース FastaHerder2

2016 Journal of Computational Biology web tool sequence clustering proteome UniProt

タンパク質データベースのますます加速する成長により配列類似性および配列保存によるタンパク質機能研究に対して大きな可能性が提供される。しかしながら、これらのデータベースに蓄積された膨大な数のタンパク質配列はデータを分析しそしてオーガナイズす…

2019-03-27

複数のtranscritome情報（gtf）をマージする TACO

2017 Nature Methods RNA seq GTF assembly de novo transcriptome sequence clustering

2023/01/04 追記ハイスループットRNAシークエンシング（RNA-Seq）により、トランスクリプトームの詳細な理解が可能になった（ref.1–3）。手動および自動システムによる high fidelityな遺伝子モデルアノテーションの試みは、主にロースループットシークエン…

2019-02-03

共通 / 非共通の遺伝子リストなどをベン図やヒートマップで視覚化する intervene

2017 BMC Bioinformatics web tool RNA seq 結果の視覚化 (visualization) venn diagram heatmap sequence clustering multi-omic multi-omics shiny Figure (scientific illustration)

次世代のシークエンシングベースのハイスループットアッセイによって生成されたトランスクリプトームデータ、ゲノムデータ、およびエピゲノムデータの効果的な可視化は、大きな関心の対象となっている。そのようなアッセイによって生成されたデータセットの…

2018-12-22

PCR duplicationにタグをつけたりエラーを取り除く gencore

2018 Preprint unique molecular tags sequence clustering trimming / preprocessing duplication

2018/12/22 タイトル修正 HIgh depthの次世代シークエンス（NGS）は、癌の精密な診断と治療に広く使用されている。このようなディープシーケンシングデータから、体細胞突然変異を検出して、パーソラナイズされた標的療法または免疫療法のガイドにすることが…

2018-12-19

UMIタグつきraw シーケンシングリードをクラスタリングする calib

unique molecular tags sequence clustering 2018 Bioinformatics

次世代シーケンシングにより、シーケンシングエラーの処理を含む多くの課題が発生する大規模なゲノムデータセットが利用可能になった。これは特にガンゲノミクスに関連する。循環腫瘍DNAからの低い対立遺伝子頻度変動を検出するために使用される。ユニークな…

2018-10-28

共発現遺伝子の自動クラスタリングツール CLust

2018 Genome Biology sequence clustering RNA seq co-expression time series dataset

遺伝子の転写は、すべての生物において動的かつ協調的に調節される。そのような協調的調節は、時系列およびperturbation-responseデータセット (参考HP) における転写産物の協調的変化として明白である。遺伝子の転写は、遺伝子のプロモーター領域またはエン…

2018-10-17

ホストゲノムや汚染配列を検出し、分離を助ける PhylOligo

2017 Bioinformatics ゲノム比較 (comparative genomics) metagenome sequence clustering Binning (metagenomics) deep neural network

シーケンシング技術の発展により、複雑な非モデル生物ゲノムおよび生物共同体のゲノムをシーケンシングの標的とすることが可能になった。これらの非モデル生物のいくつかは、それらの環境から単離することが困難だったりin vitroでクローン化ができなかった…

2018-10-12

クラスタリングツール Starcode

2015 Bioinformatics error correction sequence clustering

すべてのシーケンシング技術はある程度の不正確さを持っている。例えば、Illuminaプラットフォーム（Margulies et al、2005）は、主に置換からなる1〜2％のエラー率を有し（Dohm et al、2008; Nakamura et al、2011）、PacBioプラットフォームは挿入および…

2018-10-11

クラスタリングツール MeShClust

2018 Nucleic Acids Research repetitive sequences circular sequence clustering

ヌクレオチド配列をクラスタリングすることは、生物学的データを分析するための必須ステップである。冗長性を減らし、次世代のシークエンシングデータ（論文より ref.1-6）およびゲノムをde-novoアセンブリするための先駆的な配列クラスタリングツール（ref.…

2018-09-22

高速かつ高感度なプロテイン検索ツール MMseqs2

2017 Nature Biotechnology 高速なツール protein search metagenome sequence clustering

2019 3/18 タイトル修正、 5/7 タイトル修正、5/20 インストール追記、 8/25 twtwitter追記、12/29, 2021 9/15インストール追記 2024/11/14 GPU追記 DNAシーケンシングのスループットは、過去10年間で計算速度よりもはるかに速くなってきており、感度の高い…

2018-09-19

インタラクティブなヒートマップを簡単に作成できるwebツール shinyheatmap

結果の視覚化 (visualization) heatmap 高速なツール RNA seq 2017 PLoS ONE web tool sequence clustering shiny Figure (scientific illustration)

ヒートマップソフトウェアは、一般に、静的ヒートマップソフトウェア (static heatmap software) [論文より ref.1-9]とインタラクティブヒートマップソフトウェア (interactive heatmap software) [ref.10-20]の2つのカテゴリに分類することができる。静的ヒ…