macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ウィルスコミュニティを検出する viromescan

 

 ウイルスは常にヒトの体に生息している [論文よりref.1]。細菌および真菌のように、ある種のウイルスは、ヒト免疫の調節にとって重要な低レベルの免疫応答を刺激し得るが、代謝ホメオスタシスもまた刺激し得る。これに関して、FoxmanとIwasaki [ref.4]は、一般的な低病原性ウイルスによる絶え間の再感染が、免疫系の抗ウイルス成分を刺激し、1型糖尿病や喘息などの疾患に対する感受性と相関することを示した。一方、鼻咽頭の急性感染症に通常存在するウイルスは、健康な人でも広く検出されることが報告されている[ref.5]。

 通常、試料中のウイルスの量と多様性は過小評価されている[ref.14]。例えば、フィルタリング手順に基づいたウイルス単離のための方法は、巨大ウイルスを欠いていることが認識されている[ref.15]。全てのウイルスゲノムに共通する単一の遺伝子が存在しないため、特徴づけが困難であり、細菌に対するリボソームDNAプロファイリングに類似したアプローチの適用は難しい[ref.2]。微生物群集のウイルスは、ウイルスのシーケンスリードを適切なウイルスデータベースに割り当てることにより推定することができる。実際にメタゲノム試料は、細菌、古細菌、真核生物、ファージおよび真核生物ウイルスの核酸を含んでいる。未処理のシーケンスデータからリードを直接ウィルスゲノムに割り当てることができればウィルスのより迅速なcharacterizeを可能にし、濾過手順のために巨大ウイルスが失われることもない。

 ViromeScanはウイルスのコミュニティを正確にプロファイリングするツール。微生物内の真核生物ウイルスのコミュニティをプロファイリングするために開発された。ヒトおよび細菌起源のメタゲノム読み取りを除外し(denoise)、残りの配列を階層的ウイルスデータベースにマッピングすることによってDNAやRNAウイルスの相対的存在量を推定する。

 

インストール

cent OSに導入した。

本体SourceForgge

https://sourceforge.net/projects/viromescan/

mkdir viromescan
mv viromescan.tar.gz viromescan/ && cd viromescan/
tar -zxvf viromescan.tar.gz
cd viromescan/database/
gzip -d Bacteria_custom/*
gzip -d bowtie2/*
gzip -d hg19/*

 >  ./viromescan.sh 

$ ./viromescan.sh 

 

./viromescan.sh -1 <INPUT_FASTQ_paired_end1> -2 [INPUT_FASTQ_paired_end2] -d [DATABASE] -p [N_THREADS] -m [VIROMESCAN_PATH] -o <OUTPUT_DIR>

    

    -1/--input1: .fastq file containing the sequences (paired end 1)  (MANDATORY)

    -2/--input2: .fastq file containing the sequences (paired end 2) (if available)

    -d/--database: viral database, choose in the viromescan folder your database, among: human_ALL (RNA/DNA), human_DNA (DNA only), virus_ALL (vertebrates, invertebrates, plants and protozoa virus. NO bacteriophages), virus_DNA (vertebrates, invertebrates, plants and protozoa DNA virus. NO bacteriophages) (MANDATORY)

    -p/--n_threads: number of threads to launch (default: 1)

    -m/--viromescan_path: pathway to viromescan folder (default: working directory)

    -o/--output: output directory (MANDATORY)

    

注; ランには空き容量が45 GB以上必要とされる。

 

 

 

ラン

  • 入力ファイルは、DNA-seq またはRNA-seqのsingle-endまたはpaired-endのfastqとなっている。gzip、bzip2、zip形式も対応している。
  • ViromeScanは、ヒトDNAウイルス、ヒトDNA / RNAウイルス、真核生物DNAウイルス、および真核生物DNA / RNAウイルスからデータベースを選択してランする。ヒトウイルスデータベースは、自然宿主としてのヒトを有するウイルスのみを含む。一方、真核生物ウイルスデータベースには、バクテリオファージを除きながら、脊椎動物無脊椎動物、真菌、藻類および植物のためのウイルスも含まれる。すべてのデータベースは、NCBIのウェブサイト[23]で利用可能な完全なウイルスゲノムに基づいている。

 

初回にindexを作成しておく。

cd database/hg19/
bmtool -d hg19reference.fa -o hg19reference.bitmask -A 0 -w 18

makeblastdb -in hg19reference.fa -dbtype nucl

 

ラン。ここでは"virus_ALL"を選んだ。

cd viromescan/
./viromescan.sh -1 pair1.fastq -2 pair2.fastq -p 12 -o output -d virus_ALL
  • -1 fastq file containing the sequences (paired end 1) (MANDATORY)
  • -2 fastq file containing the sequences (paired end 2) (if available)
  • -d viral database, choose in the viromescan folder your database, among: human_ALL (RNA/DNA), human_DNA (DNA only), virus_ALL (vertebrates, invertebrates, plants and protozoa virus. NO bacteriophages), virus_DNA (vertebrates, invertebrates, plants and protozoa DNA virus. NO bacteriophages) (MANDATORY) 
  • -p number of threads to launch (default: 1)
  • -m pathway to viromescan folder (default: working directory)
  • -o output directory (MANDATORY)

 databaseがないというエラーが出たら、-mでviromescanの場所を指定してやれば良い。例えば/home/uesaka/viromescan/viromescanにdatabase/があるなら、"-m /home/uesaka/viromescan/"と指定する。

 

 

 

引用

ViromeScan: a new tool for metagenomic viral community profiling.

Rampelli S, Soverini M, Turroni S, Quercia S, Biagi E, Brigidi P, Candela M.

BMC Genomics. 2016 Mar 1;17:165.

 

From Whole-Genome Shotgun Sequencing to Viral Community Profiling: The ViromeScan Tool.

Rampelli S, Turroni S.

Methods Mol Biol. 2018;1746:181-185.

 

Biostars (error)

https://www.biostars.org/p/280187/