macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

(SARS-CoV-2) シーケンシングリードの迅速なデコンタミネーションを行う ReadItAndKeep

 

 臨床検体から得られたウイルス配列データには、人為的な汚染が含まれていることが多い。これらは、法的・倫理的な理由により、共有する前に除去する必要がある。ホストリードの除去を可能にし、低スペックのノートパソコンでSARS-CoV-2のシーケンスデータを扱うために、本著者らはReadItAndKeepを開発した。これはSARSCoV-2ゲノムに一致するリードのみを保持する、イルミナデータおよびナノポアデータ用の高速軽量ツールである。ピーク時のRAM使用量は通常10MB以下、実行時間は1分未満となっている。(一部略) ReadItAndKeepはC++で実装されており、MITライセンスにて、https://github.com/GenomePathogenAnalysisService/で公開されている。

 

 

インストール

condaで導入した (ubuntu18)。また、docker imageをビルドしてテストした。

Github

#conda (bioconda link)
mamba create -n RIAK -y
conda activate RIAK
mamba install -c bioconda read-it-and-keep -y

#from source
git clone https://github.com/GenomePathogenAnalysisService/read-it-and-keep.git
cd read-it-and-keep/src/
make -j

#Singularity container
sudo singularity build readItAndKeep.sif Singularity.def

#docker
cd read-it-and-keep/
docker build -f Dockerfile -t <TAG> .

> readItAndKeep -h

Usage: readItAndKeep [OPTIONS]

 

Options:

  -h,--help                   Print this help message and exit

  --tech TEXT                 Sequencing technology, must be 'illumina' or 'ont' [illumina]

  --ref_fasta TEXT:FILE REQUIRED

                              Reference genome FASTA filename

  --reads1 TEXT:FILE REQUIRED Name of first reads file

  --reads2 TEXT:FILE          Name of second reads file, ie mates file for paired reads

  -o,--outprefix TEXT REQUIRED

                              Prefix of output files

  --enumerate_names           Rename the reads 1,2,3,... (for paired reads, will also add /1 or /2 on the end of names)

  --debug                     Debug mode. More verbose and writes debugging files

  --min_map_length UINT       Minimum length of match required to keep a read in bp [50]

  --min_map_length_pc FLOAT   Minimum length of match required to keep a read, as a percent of the read length [50.0]

  -V,--version                Show version and exit

 

 

 

テストラン

SRAのデータを使用してランした。リファレンス配列(ターゲット配列)、シークエンシングリード、出力prefixを指定する。

#illumina
cd tests/
readItAndKeep --ref_fasta MN908947.3.fa --reads1 read_1.fastq.gz --reads2 read_2.fastq.gz -o out
  • --tech    Sequencing technology, must be 'illumina' or 'ont' [illumina] 
  • --ref_fasta   Reference genome FASTA filename
  • --reads1   Name of first reads file
  • --reads2   Name of second reads file, ie mates file for paired reads
  • -o    Prefix of output files 

マッピング後、残ったリード数が表示される。

f:id:kazumaxneo:20220131231409p:plain

出力

f:id:kazumaxneo:20220131231353p:plain

このデータは25秒でランできた。

 

sendsketch(紹介)の結果

元のデータ。サルやゴリラ、ヒトがヒットしている(これらはおそらく全てヒトゲノム)。

f:id:kazumaxneo:20220131232458p:plain

out.reads_{1,2}.fastq.gz

f:id:kazumaxneo:20220131232706p:plain

出力では検出されない。

 

 

引用

ReadItAndKeep: rapid decontamination of SARS-CoV-2 sequencing reads

Martin Hunt, Jeremy Swann 2, Bede Constantinides 2, Philip W Fowler 2, Zamin Iqbal

bioRxiv preprint doi: https://doi.org/10.1101/2022.01.21.477194; this version posted January 21, 2022. T

 

関連