臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを扱うために、本著者らはReadItAndKeepを開発した。これはSARSCoV-2ゲノムに一致するリードのみを保持する、イルミナデータおよびナノポアデータ用の高速軽量ツールである。ピーク時のRAM使用量は通常10MB以下、実行時間は1分未満となっている。(一部略) ReadItAndKeepはC++で実装されており、MITライセンスにて、https://github.com/GenomePathogenAnalysisService/で公開されている。
インストール
condaで導入した (ubuntu18)。また、docker imageをビルドしてテストした。
#conda (bioconda link)
mamba create -n RIAK -y
conda activate RIAK
mamba install -c bioconda read-it-and-keep -y
#from source
git clone https://github.com/GenomePathogenAnalysisService/read-it-and-keep.git
cd read-it-and-keep/src/
make -j
#Singularity container
sudo singularity build readItAndKeep.sif Singularity.def
#docker
cd read-it-and-keep/
docker build -f Dockerfile -t <TAG> .
> readItAndKeep -h
Usage: readItAndKeep [OPTIONS]
Options:
-h,--help Print this help message and exit
--tech TEXT Sequencing technology, must be 'illumina' or 'ont' [illumina]
--ref_fasta TEXT:FILE REQUIRED
Reference genome FASTA filename
--reads1 TEXT:FILE REQUIRED Name of first reads file
--reads2 TEXT:FILE Name of second reads file, ie mates file for paired reads
-o,--outprefix TEXT REQUIRED
Prefix of output files
--enumerate_names Rename the reads 1,2,3,... (for paired reads, will also add /1 or /2 on the end of names)
--debug Debug mode. More verbose and writes debugging files
--min_map_length UINT Minimum length of match required to keep a read in bp [50]
--min_map_length_pc FLOAT Minimum length of match required to keep a read, as a percent of the read length [50.0]
-V,--version Show version and exit
テストラン
SRAのデータを使用してランした。リファレンス配列(ターゲット配列)、シークエンシングリード、出力prefixを指定する。
#illumina
cd tests/
readItAndKeep --ref_fasta MN908947.3.fa --reads1 read_1.fastq.gz --reads2 read_2.fastq.gz -o out
- --tech Sequencing technology, must be 'illumina' or 'ont' [illumina]
- --ref_fasta Reference genome FASTA filename
- --reads1 Name of first reads file
- --reads2 Name of second reads file, ie mates file for paired reads
- -o Prefix of output files
マッピング後、残ったリード数が表示される。
出力
このデータは25秒でランできた。
sendsketch(紹介)の結果
元のデータ。サルやゴリラ、ヒトがヒットしている(これらはおそらく全てヒトゲノム)。
out.reads_{1,2}.fastq.gz
出力では検出されない。
引用
ReadItAndKeep: rapid decontamination of SARS-CoV-2 sequencing reads
Martin Hunt, Jeremy Swann 2, Bede Constantinides 2, Philip W Fowler 2, Zamin Iqbal
bioRxiv preprint doi: https://doi.org/10.1101/2022.01.21.477194; this version posted January 21, 2022. T
関連