macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

fastqの配列をランダムに変化させる fastq-anonymous

 

インストール

mac os10.13のPython 3.6.2 :: Anaconda 3-5.0.0 でテストした。

本体 GIthub

pip install fastq-anonymous


#Anaconda環境なら
conda install -c bioconda fastq-anonymous

fastq-anonymous -h

$ fastq-anonymous -h

usage: fastq-anonymous [-h] [-v] [-m]

 

Change the sequence of a fastq file to enable sharing of confidential

information, for troubleshooting of tools.

 

optional arguments:

  -h, --help     show this help message and exit

  -v, --version  Print version and exit.

  -m, --mask     Mask all nucleotides using N

 

ラン

fastqを指定する。

cat reads.fq | fastq-anonymous > anonymous_reads.fq
  •  -m   Mask all nucleotides using N

ヘッダー名が匿名になり、配列もランダムに置き換えられる。クオリティ、リード長、リード数は維持される。

$ head anonymous_reads.fastq 

@dummy0

GACCAGCACCTCGACCGGTCGCTGTGCTCAGAGACTTTATGCGCAAGTTAGCCGTCTTCCCTCCTGTTTGGTTACGTCCGCAGGTCGGGATCACATTCAGATGGATCGGAGCCCGCCACGATGTGAATTAAGCCCGATTTCGCAGGTCGACATAAGTGTTGTTATCTGCAACCCGCTGTAATTGTGACGTAGGTCTCTCCCCAACCATGCACCACGAAATTGTAACAACGTCGGATCATACGCAACTTGT

+

#9GGEF=CG*GFG?G#=G1#GGGGGG#G#GGEG;#GGGFGGGCG?GCGGGEEGGGFGDGGGG8GFGGGFGGGGGGFFGGGCGG*GFGG@FAGGGGEFGGGFGGFGGGG?GGGGG?EGGFGGG+3GGGFGGGCFGGEGGGGE,FGCGGGDGGGGGCGGCGGGGGGGCGGFGGGGGGEGGCGFGGGGGGG,GGGGGGGF:GGGFGGGGFGGGGGGGGGEGGGFGGGFGCFGGGGGGGGFGGGGGGGGCCCCC

 

@dummy1

GATTTTAGTCGCCACGAGTTCCTTCCTCATGATATTTGGTCAGCTTTTCTGATATGCAACTGCCACTGCAACTCATAGCCAGCATCAGCCTCGCCACGGCCCCACATGTAGCACACTGTGCAGCGTGCTATTGGACTACGAGTCCCCCTCGAGTTGGACACCCCACGAGTTCAGGAGGCCAGGGCTACTATCCCAAACGGTGGTCGGATCCTGCACGTGGCCGGAAACAGAAATCAAACAATTTGCACAC

+

G27GGEGG<GGGGGGA+GGGG#GE2C##G*GAG+GFGGGGGGGFC>GGCGGGGGCGGGGG*GGGGCGBFGGGGGG1GGFGFGGGGGGGFGGGGGGGGGG<GFCFGGF,GGGGGGCGGGGGGGGGGGGGGGGFGGBFGGGGGCFB<=GGGGGFGGGGGGGG=GGGGGFFGGFGGGGGCGGGFGGGFGGGGGGGGCGGCGCGGGFABCGG@GEGGCGGGGGGGG,GGGGDGGGCGGGGCGGCGGCGGC@CCC

 

gzip圧縮のfastqを使う場合、解凍して読み込む。gzip圧縮して出力する。

gunzip -c reads.fastq.gz | fastq-anonymous | gzip > anonymous_reads.fastq.gz

 

引用

GitHub - wdecoster/fastq-anonymous: Change the sequence of a fastq file to enable sharing of confidential information for troubleshooting