マッピングに適したシーケンス削減(MSR)スケッチを提案する。これは高忠実度(HiFi)ロングリード向けのスケッチ手法であり、これらのスケッチを直接操作するアセンブラ「Alice」を提供する。MSRはコンパクトな表現を生成し、(i) アライン可能な配列(2つの配列は、そのMSRスケッチがアラインする場合にのみアラインする)であり、(ii) 衝突耐性を持つため、異なる配列は高い確率で異なるスケッチを生成し、近縁株間の小さな差異を保持する。Aliceはロングリードを短いMSRスケッチに削減し、それらのスケッチをアセンブルするために古典的なショートリードアセンブリ手法を使用し、結果を解凍して最終的なアセンブリを得る。この戦略は、低計算コストで系統分解能アセンブリを生成するという長年の課題に対処する。Adineta vagaゲノム、5種の同種系統からなる模擬腸内コミュニティ、および2つのリアルメタゲノム(ヒト便・土壌)において、Aliceは最先端HiFiアセンブラより1桁高速でありながら、同等の品質のアセンブリを提供し、高度に類似した系統の回収率を向上させる。
インストール
Win11のWSLでmambaを使ってテストした(os: ubuntu22)。
mamba create -n Alice -y
conda activate Alice
mamba install -c bioconda aliceasm -y
#from source
git clone https://github.com/RolandFaure/Alice-asm.git
cd Alice-asm
mkdir build && cd build
cmake ..
make
> aliceasm
_______ _ _ _ _ _
|__ __| | /\ | (_) /\ | | | |
| | | |__ ___ / \ | |_ ___ ___ / \ ___ ___ ___ _ __ ___ | |__ | | ___ _ __ :: _.mnm._
| | | '_ \ / _ \ / /\ \ | | |/ __/ _ \ / /\ \ / __/ __|/ _ \ '_ ` _ \| '_ \| |/ _ \ '__| : : ( _____ )
| | | | | | __/ / ____ \| | | (_| __/ / ____ \\__ \__ \ __/ | | | | | |_) | | __/ | : : | |
|_| |_| |_|\___| /_/ \_\_|_|\___\___| /_/ \_\___/___/\___|_| |_| |_|_.__/|_|\___|_| :__: `___/
Command line: aliceasm
Alice Assembler version 0.6.41
Last update: 2024-04-09
Author: Roland Faure
Could not parse the arguments
SYNOPSIS
aliceasm -r [<r>] -o [<o>] [-t [<t>]] [-l [<o>]] [-c [<c>]] [-H] [-m [<m>]] [-k [<k>]]
[--single-genome] [--bcalm [<b>]] [--clean] [--test [<t>]] [-v] [-h]
OPTIONS
-r, --reads input file (fasta/q)
-o, --output
output folder
-t, --threads
number of threads [1]
-l, --order order of MSR compression (odd) [101]
-c, --compression
compression factor [20]
-H, --no-hpc
turn off homopolymer and homodimer compression
-m, --min-abundance
minimum abundance of kmer to consider solid - RECOMMENDED to set to coverage/2
if single-genome [5]
-k, --kmer-sizes
comma-separated increasing sizes of k for assembly, must go at least to 31
[17,31]
--single-genome
Switch on if assembling a single genome
--bcalm path to bcalm [bcalm]
--clean remove the tmp folder at the end [off]
--test (developers only) to compare the result against this reference
-v, --version
print version and exit
-h, --help print this help message and exit
実行方法
レポジトリではSRR21295163(E.coli単離株のHiFiシークエンシングデータ)をダウンロードしてテストしている。これに従う(gzip圧縮ファイルサイズ)。
#ダウンロード
fastq-dump SRR21295163
#実行
aliceasm -r SRR21295163.fastq -o output_assembly -t 8
- -r input file (fasta/q)
- -o output folder
- -t number of threads [1]

テスト時は30秒程度で終了した(3990X, 8スレッド)。
出力例
output_assembly/

assembly.gfaとassembly.fastaが含まれている(フォーマットの違いだけで全く同じコンティグを表す)。
レポジトリと論文より
-
著者のコンピューターでは、SRR21295163のアセンブリは25秒で完了し、0.33GBのRAMのみ使用した。
-
Aliceはゲノム解析とメタゲノム解析の両方に使用できる。単一ゲノムのアセンブリを行う場合は、出力グラフを簡素化するため、--single-genomeフラグを使用し、-mオプションを予想カバレッジ値/2に設定することを推奨する。
- Ekim、Berger、Chikhi は wtdbg2、shasta、Peregrineの概念を基に、新しい手法を提案した。それは、リード中の k′-mer の一部をサンプリングし、得られた k′-mer の系列を連結して「k′-mer の k-mer」、すなわち k-min-mer を構築し、それをアセンブルしたのち、得られた連鎖をゲノム配列に変換するというものである [11]。このアプローチは mDBG と呼ばれる概念実証的なアセンブラにおいて顕著な効率性を示し、個人用コンピュータ上でもわずか数分でヒトゲノムのアセンブリを完了できた [11]。しかし、メタゲノムや倍数体ゲノムの配列には、遺伝的には非常に類似しているが機能的には異なる複数の系統(ストレイン)が含まれることが多く [34]、(meta)mDBG ではリードを k-mer の連鎖としてスケッチ化するため、非常に類似した配列間のわずかな違い(たとえば一塩基多型:SNP など)が失われることが多い。
-
本研究では、新しいアセンブラ Alice (ルイス・キャロルの『不思議の国のアリス』[5] に由来)を提案する。概念的には Alice は metaMDBG と類似しており、まずリードをスケッチ化し、スケッチをアセンブルした後に得られた配列を展開して最終的なアセンブリを得る。しかし、Alice の大きな革新点は、新しいスケッチング手法「Mapping-friendly Sequence Reduction(MSR)」の導入にある。本研究では、適切にパラメータ化した MSR を用いて PacBio HiFi リードをスケッチ化し、類似配列の識別能力を維持しつつ、計算効率に優れたアセンブラを実現した。
引用
Alice: fast and haplotype-aware assembly of high-fidelity reads based on MSR sketching
Roland Faure, Baptiste Hilaire, Jean-François Flot, Dominique Lavenier
Posted September 30, 2025.
関連