macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

宿主汚染を正確に除去する Hostile

2023/12/22 論文引用

 

 臨床サンプルから作成された微生物配列は、倫理的および法的な理由から除去しなければならないヒト宿主配列で汚染されていることが多い。バリアントコーリングやde novoアセンブリなどの下流解析に不利になるような標的微生物配列を不用意に除去することなく、宿主配列を除去するためには注意を払わなければならない。ショートシーケンスリードからもロングリードからも正確に宿主リードを除染するために、ラップトップ仕様のハードウェアを用いて迅速に宿主リードを除去できるツールHostileを開発した。本アプローチにより、実際のヒトリードを少なくとも99.868%除去し、シミュレートした細菌リードを少なくとも99.997%保持できることを実証した。マスクされたリファレンスゲノムを使用することで、ヒトのリード除去性能はごくわずか(<0.001%)に低下しながら、細菌のリード保持率はさらに向上した(>=99.997%)。既存のツールと比較して、Hostileはヒトのリードを最大11倍、微生物のリードを最大11倍除去し、標準的なワークロードではより短時間で処理することができた。HostileはMITライセンスのPythonパッケージとして実装されており、https://github.com/bede/hostileで利用できる。

 

 

インストール

レポジトリの説明に従い、環境を作って導入した。

curl -OJ https://raw.githubusercontent.com/bede/hostile/main/environment.yml
mamba env create -f environment.yml  # Mamba is faster
conda activate hostile
pip install hostile

> hostile clean --help

$ hostile clean --help

usage: hostile clean [-h] --fastq1 FASTQ1 [--fastq2 FASTQ2] [--aligner

{bowtie2,minimap2}] [--custom-index CUSTOM_INDEX] [--out-dir OUT_DIR]

[--threads THREADS] [--debug]

 

Remove human reads from paired fastq(.gz) files

 

options:

  -h, --help            show this help message and exit

  --fastq1 FASTQ1       path to forward fastq(.gz) file

  --fastq2 FASTQ2       optional path to reverse fastq(.gz) file

                        (default: None)

  --aligner {bowtie2,minimap2}

                        alignment algorithm

                        (default: bowtie2)

  --custom-index CUSTOM_INDEX

                        path to custom index

                        (default: None)

  --out-dir OUT_DIR     output directory for decontaminated fastq.gz files

                        (default: /home/kazu/Documents)

  --threads THREADS     number of CPU threads to use

                        (default: 128)

  --debug               show debug messages

                        (default: False)

 

 

 

実行方法

Hostileの初回実行時には、デフォルトのヒトt2t-hlaリファレンスT2T-CHM13v2.0 + IPD-IMGT/HLAがダウンロードされる($HOME/.local/share/hostile/)。"-custom-index"を指定するとオーバーライドできる。

イルミナまたはONTのfastq[.gz]を指定する。

hostile clean --fastq1 reads.r1.fastq.gz --fastq2 reads.r2.fastq.gz
  • --fastq1   path to forward fastq(.gz) file

  • --fastq2  optional path to reverse fastq(.gz) file   (default: None)

    --aligner {bowtie2,minimap2}   alignment algorithm (default: bowtie2) 

  • --out-dir  output directory for decontaminated fastq.gz files (default: $HOME/Documents)

  • --custom-index    path to custom index (default: None) 

  • --threads    number of CPU threads to use (default: 128)

                           

結果は入力ファイルのprefix + clean_{1,2}.fastq.gzファイルとして出力される(ペアエンドの場合)。

引用

Hostile: accurate host decontamination of microbial sequences

Bede Constantinides,  Derrick W Crook

bioRxiv, Posted July 05, 2023

 

2023/12/22 追記

Hostile: accurate decontamination of microbial host sequences 
Bede Constantinides,   Martin Hunt,   Derrick W Crook
Bioinformatics, Published: 01 December 2023

 

関連