2023/12/22 論文引用
臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用意に除去することなく、宿主配列を除去するためには注意を払わなければならない。ショートシーケンスリードからもロングリードからも正確に宿主リードを除染するために、ラップトップ仕様のハードウェアを用いて迅速に宿主リードを除去できるツールHostileを開発した。本アプローチにより、実際のヒトリードを少なくとも99.868%除去し、シミュレートした細菌リードを少なくとも99.997%保持できることを実証した。マスクされたリファレンスゲノムを使用することで、ヒトのリード除去性能はごくわずか(<0.001%)に低下しながら、細菌のリード保持率はさらに向上した(>=99.997%)。既存のツールと比較して、Hostileはヒトのリードを最大11倍、微生物のリードを最大11倍除去し、標準的なワークロードではより短時間で処理することができた。HostileはMITライセンスのPythonパッケージとして実装されており、https://github.com/bede/hostileで利用できる。
Preprint: How best to remove human reads from microbial FASTQs? Our tool Hostile removed >99.6% of human reads while retaining >99.997% and 100% of simulated reads in bacterial and mycobacterial metagenomeshttps://t.co/3GNzCSzGoT
— Bede Constantinides (@beconsta) 2023年7月6日
インストール
レポジトリの説明に従い、環境を作って導入した。
curl -OJ https://raw.githubusercontent.com/bede/hostile/main/environment.yml
mamba env create -f environment.yml # Mamba is faster
conda activate hostile
pip install hostile
> hostile clean --help
$ hostile clean --help
usage: hostile clean [-h] --fastq1 FASTQ1 [--fastq2 FASTQ2] [--aligner
{bowtie2,minimap2}] [--custom-index CUSTOM_INDEX] [--out-dir OUT_DIR]
[--threads THREADS] [--debug]
Remove human reads from paired fastq(.gz) files
options:
-h, --help show this help message and exit
--fastq1 FASTQ1 path to forward fastq(.gz) file
--fastq2 FASTQ2 optional path to reverse fastq(.gz) file
(default: None)
--aligner {bowtie2,minimap2}
alignment algorithm
(default: bowtie2)
--custom-index CUSTOM_INDEX
path to custom index
(default: None)
--out-dir OUT_DIR output directory for decontaminated fastq.gz files
(default: /home/kazu/Documents)
--threads THREADS number of CPU threads to use
(default: 128)
--debug show debug messages
(default: False)
実行方法
Hostileの初回実行時には、デフォルトのヒトt2t-hlaリファレンス(T2T-CHM13v2.0 + IPD-IMGT/HLA)がダウンロードされる($HOME/.local/share/hostile/)。"-custom-index"を指定するとオーバーライドできる。
イルミナまたはONTのfastq[.gz]を指定する。
hostile clean --fastq1 reads.r1.fastq.gz --fastq2 reads.r2.fastq.gz
-
--fastq1 path to forward fastq(.gz) file
-
--fastq2 optional path to reverse fastq(.gz) file (default: None)
--aligner {bowtie2,minimap2} alignment algorithm (default: bowtie2)
-
--out-dir output directory for decontaminated fastq.gz files (default: $HOME/Documents)
-
--custom-index path to custom index (default: None)
-
--threads number of CPU threads to use (default: 128)
結果は入力ファイルのprefix + clean_{1,2}.fastq.gzファイルとして出力される(ペアエンドの場合)。
引用
Hostile: accurate host decontamination of microbial sequences
Bede Constantinides, Derrick W Crook
bioRxiv, Posted July 05, 2023
2023/12/22 追記
Hostile: accurate decontamination of microbial host sequences
Bede Constantinides, Martin Hunt, Derrick W Crook
Bioinformatics, Published: 01 December 2023
関連