ゲノム間のアラインメントを高速に行う FastGA

FastGAは、同等の感度を持つ従来手法と比較して1桁以上高速に2つのゲノム配列間のアラインメントを発見する。その高速性は以下の要因による：(a) MSD基数ソートとマージのみを伴う完全キャッシュローカルアーキテクチャ、(b) ソート済みk-merテーブルの線形…

2024-11-02

HiFiリードを使う複雑な植物オルガネラゲノムのde novoアセンブリツール Oatk

Pacbio 2024 Preprint k-mer organelle genome mitochondria Chloroplast DNA (plastome) 2025 Genome Biology

植物オルガネラゲノム、特に複雑な繰り返し構造を持つ巨大なミトコンドリアゲノムは、アセンブリにとって大きな課題である。ロングリードシーケンス技術の登場は、完全長のゲノムを構築する画期的な機会を提供するが、代替構造を解決する問題は依然として残…

2024-10-08

k-merの起源となる配列を見つける Back to sequences

k-mer 高速なツール fasta/fastqの操作 JOSS 2024

2024/10/09追記生のシーケンスデータの処理に特化したバイオインフォマティクスツールの大部分は、k-mersの概念を多用している。これにより、データの冗長性（ひいてはメモリの圧迫）を減らし、シーケンスエラーを破棄し、操作可能で容易に比較できる固定サ…

2024-05-23

大規模なデータセットにもスケールする多目的k-merカウンターおよび多様性推定器 MerCat2

Bioinformatics Advances 2024 高速なツール k-mer fasta/fastqの操作

MerCat2（"Mer-Catenate2"）は、オミックスデータ中のフィーチャーをロバストに解析するための、汎用性、並列性、拡張性、モジュール性を備えたソフトウェアパッケージである。MerCat2は、あらゆるプラットフォームからのHTSシークエンシングの生リード、ア…

2024-05-03

DNA配列中のk-merを２次元空間に視覚化する KMAP

k-mer 結果の視覚化 (visualization) 2024 Preprint GPU

DNA配列中のパターンを同定し図示することは、様々な生物学的データ解析において極めて重要な作業である。この作業では、DNA配列の基本的な構成要素であるkmmerの集合によってパターンが表現されることが多い。これらのパターンを視覚的に明らかにするために…

2023-05-01

k-merカウントツール meryl

k-mer

merylはk-merカウントを行うツール。Celera Assemblerのために書かれた'meryl'をほぼ全面的に書き直したものが公開されている。マニュアル https://meryl.readthedocs.io/en/latest/index.html インストールビルド依存 gcc 7.4.0 or higher Github ##from …

2022-12-30

シークエンシングリードからk-merカウントを使用してテロメアリピートを予測する telomere-kmer-search

telomere k-mer

レポジトリより telomere-kmer-searchは、テロメアが与えられたゲノムライブラリの中で最も豊富なダイレクトタンデムリピート配列であると仮定してテロメアリピートを予測する。出力は、頻度順に並べたダイレクトタンデムリピートユニット配列のリストである…

2022-06-25

集団特異的なリファレンスゲノムを作成するための高速なゲノム研磨ツール JASPER

高速なツール 2022 Preprint polish human whole genome population genomics k-mer

ロングリードシーケンス技術の進歩により、ゲノムアセンブリの連続性と完全性が劇的に改善された。最新のナノポアシーケンサーを用いれば、フローセル1個からヒトゲノムのアセンブリに必要なデータを生成することができる。これらのシーケンスから得られるロ…

2022-05-02

SeqWho

k-mer 2022 Bioinformatics mapping free テスト失敗

シーケンサー技術の大幅な向上とプロトコルの増加により、シーケンサーは複雑な生物学的問題に答えるために使用されるようになってきた。それに伴い、解析パイプラインはより時間と複雑さを増し、通常、非常に大規模な事前検証ステップを必要とするようにな…

2022-04-30

シーケンスデータ中のウイルス・微生物検出を高速に行う RabbitV

2022 Bioinformatics SARS-CoV-2 Viruses 高速なツール結果の視覚化 (visualization) k-mer

シークエンスデータに含まれるウイルスや微生物の検出・同定は、病原体の診断や研究において重要な役割を担っている。しかし、この問題のための既存のツールは、しばしば高い実行時間とメモリ消費に悩まされている。本著者らは、ユニークなk-merの高速同定に…

2022-03-31

疑似マッピングによる原核生物とウイルス集団の正確なメタゲノムプロファイリングを行う KMCP

2022 Preprint k-mer ヒト腸内 (human gut) MInHash abundance estimation in metagenomics data Bioinformatics

2022/10/17 help更新 2023/01/05 論文引用、07/26 追記微生物リファレンスゲノムの増加により、メタゲノム解析の精度は向上したが、分類学的プロファイラーのインデックス作成効率、データベースサイズ、実行時間に対する要件は高くなってきている。また、…

2022-03-28

複数のゲノムまたはビンからの非冗長化パンゲノムアセンブリを得る SuperPang

pan-genome 2022 Preprint dereplication metagenome mOTU k-mer

2022/303/29 リンク修正、コマンド修正ゲノムレベルでは、微生物は対立遺伝子と遺伝子組成の両方において高い適応性を持っている。このような遺伝的形質は、異なる環境ニッチに対応して出現し、微生物群集の動態に大きな影響を与える可能性がある。この結果…

2021-08-20

（ヒトゲノム）超高速なk-mer問い合わせwebサービス KmerKeys

k-mer 2021 Preprint 高速なツール variant human genome web tool primer CRISPR 2022 Nucleic Acids Research

2022/05/21 論文引用 K-merは、ゲノム配列解析に使用される短いDNA配列である。K-merを使ったアプリケーションには、ゲノムアセンブリやアラインメントがある。しかし、バイオインフォマティクスの分野でk-merを広く利用するには、ゲノム配列データの巨大化…

2021-07-13

コンティグごとにユニークなk-merを取り出す UniqueKMER

k-mer インフォマティクス解析をサポートするツール

UniqueKMERはfastaファイルのコンティグごとにユニークなk-merを生成する。ユニークなk-merは、あるコンティグにのみ存在し、他のコンティグには存在しないk-merキーで構成されている（順鎖、逆鎖の両方）。本ツールは、多数のコンティグで構成されたFASTAフ…

2021-07-12

De Novo Variantsを正確に発見するためのマッピング不要のフレームワーク Kevlar

2019 Preprint k-mer SNV small indel human genome family trios human de novo mutation mapping free 高速なツール structural variations (SV) workflow manager iScience

遺伝性変異は複雑な遺伝性疾患における主要な寄与因子であると推測されている。多くの遺伝性疾患の遺伝率は比較的高いと推定されている。例えば、自閉症スペクトラム障害（ASD）の遺伝率は0.6を超え、統合失調症の遺伝率は0.5を超える。この遺伝性のごく一部…

2021-05-01

De novo transcriptomeのアセンブラ IDBA-tran

2013 Bioinformatics de novo transcriptome k-mer

トランスクリプトームの解析には、次世代シーケンシング技術を用いたRNAシーケンシングが有効である。de novoゲノムアセンブリと同様に、de novoトランスクリプトームアセンブリは、リファレンスゲノムや追加のアノテーション情報に依存しないが、より困難で…

2020-11-05

バクテリアの高精度なアセンブリツール Platanus_B

2020 DNA Research k-mer bacteria assembly assembly graph hybrid assembly Nanopore long read Pacbio rRNA repetitive sequences

2020 11/6 誤字修正ショート DNA リードのデノボアセンブリは、特に大規模プロジェクトや疫学における高解像度の変異解析に不可欠な技術であり続けている。しかし、既存のツールでは、近縁の菌株を比較するのに必要な十分な精度が得られないことが多い。こ…

2020-08-01

De brujin アセンブラ BCALM 2

2016 Bioinformatics k-mer assembly graph assembly

シーケンシング実験あたりのデータ量が増加するにつれて、フラグメントアセンブリはますます計算量が増加している。De Bruijn graphは、フラグメントアセンブリアルゴリズムで広く使用されているデータ構造で、リードのセットからの情報を表現するために使用…

2020-07-21

メタゲノム由来コンティグから真核生物のタンパク質配列を予測する MetaEuk

2020 Microbiome (Journal) k-mer metagenome 生物種の推定 (taxonomic profiling) GFF Evidence-driven gene prediction

2020 7/26 更新完了メタゲノミクスは、微生物とその生物学的、生物医学的、地球化学的プロセスへの関与の研究に革命をもたらしており、事前の培養を必要とせずに、膨大な数の生物を直接シーケンスして調査することが可能になっている。単細胞真核生物は、主…

2020-07-06

Kmasker

The Plant Journal k-mer web tool 2020 cfDNA / ctDNA plant

多くの植物ゲノムは、高レベルのrepetitive sequencesを持っている。ハイスループットシーケンスリードを使用したこれらの複雑なゲノムのアセンブリは、依然として困難な作業である。これらのデータセットの repeat complexity を過小評価または無視すると、…

2020-05-22

k-merカウンタ DSK

2013 Bioinformatics k-mer

DNA/RNAシーケンシングのリード中のすべてのk-mer（長さkの部分文字列）をカウントすることは、多くのバイオインフォマティクスアプリケーションの前段階である。しかし、最新のk-merカウント方法では、大きなデータ構造がメモリ内に存在する必要がある。こ…

2020-02-13

バクテリアゲノムをリファレンスフリーで素早く分析する SKA

2018 Preprint bacteria k-mer reference free

細菌性病原体のゲノムシーケンスは、疫学者の防具の重要なツールになりつつある。パルスフィールドゲル電気泳動やMLSTなどの従来の分子タイピングアプローチよりも特異性と感度が向上し、遺伝子型の抗微生物薬耐性予測などの疫学関連データも提供される。た…

2019-12-07

植物のRNA seqデータからvirus配列を検出する Kodoja

2019 Journal of General Virology plant k-mer 生物種の推定 (taxonomic profiling) virus RNA seq

ウイルス感染は、食物と燃料のために栽培される作物で特に重要な問題である。ウイルスは収量と品質の大きな損失を引き起こし、その結果、ウイルスは重要な経済的悪影響を及ぼす[ref.1]。英国では、ポテトウイルスYは年間3,000〜4,000万ポンドのジャガイモの…

2019-07-21

アラインメントフリーの配列比較GUIツール CAFE

Nucleic Acids Research 2017 ゲノム比較 (comparative genomics) 結果の視覚化 (visualization) 分子系統樹 k-mer heatmap genetic distance GUIツール

配列比較は、分子配列間の関係を研究するために広く使用されている。配列比較のための主なツールは、global（ref.1）およびlocal（ref.2）シーケンスアラインメントを含むアラインメントベースの方法である。 BLAST（ref.3）のようなアラインメントベースの…

2019-07-11

Pacbioシーケンシングリードのオーバーラップ検出感度を改善する GroupK

2019 BMC Genomics Overlap-layout-consensus (OLC) assembly k-mer Pacbio テスト失敗

リード長の増加により、第3世代のシークエンシングでゲノムアセンブリのギャップを埋め[ref.1, 2]、構造の変化を明らかにし[ef.13]、トランスクリプトームシークエンシングで遺伝子アイソフォームをより正確に定量できるようになった[ef.14]。さらに、ロング…

2019-05-29

k-merカウントツール Squeakr

error correction 2018 Bioinformatics k-mer 高速なツール

Massively parallel high-throughput sequencing (HTS) 技術の登場により、シーケンシング能力は劇的に増加している。増加するHTSデータに対処するための新しい計算方法の多くは、k-mer（k塩基の文字列）をシーケンスの分析の最小単位として使用する。例えば…

2019-05-16

メタゲノムをアセンブルする metaSPAdes

2017 Genome Research metagenome assembly k-mer Marine Metagenomics ヒト腸内 (human gut)

2024/03/23 追記メタゲノムシーケンシングは、細菌集団の分析ならびに新規な生物および遺伝子の発見のための選択技術として浮上している（Tyson et al, 2004、Venter et al, 2004、Yooseph et al, 2007、Arumugam et al, 2011）。初期のメタゲノミクス研究…

2019-05-15

リファレンスフリーで低メモリかつ高速にSNVとsmall indelを予測する DiscoSnp ++

2014 2017 Nucleic Acids Research Preprint SNV reference free small indel k-mer metagenome 高速なツール RAD-Seq

次世代シーケンス（NGS）データは生命メカニズムへの前例のないアクセスを提供する。特に、これらのデータは染色体、個体または種間の遺伝的差異を評価することを可能にする。そのような多型は、農学、環境または医学における多数の用途を有する生物学の多く…

2019-05-03

効率的なk-merカウンタ kmcEx

2019 Bioinformatics API k-mer 高速なツール

K-merは、それらの頻度と共に、エラー訂正、リピート検出、マルチプルシーケンスアラインメント、ゲノム構築などの基本的なビルディングブロックとして役立ち、k-merカウントにおける集中的な研究を引き付けた。ただし、k-merカウンタの出力自体は大きい。非…

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。