macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MultiQC

2019 1/16 誤字修正および対応ツール情報更新

2019 12/29 ツイート追加

2020 1/17 condaインストール追記

2020 4/19 説明追記

2020 5/25 ツイート追記

 

今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質評価ができないと、チェック漏れが出てしまう恐れがある。例えば、fastqcでfastqを分析すると、データごとに分析結果がビジュアル出力される。大量のシーケンスデータを処理していると、この分析だけでもたくさんの時間がかかり、エラーの多いデータの見過ごしも出てくる可能性が高まる。外れ値のデータの除去漏れなどがないようにするには、NGSのデータをまとめて解析・出力し、結果を1つの図または表に落とし込んで比較できる使いやすいツールが必要となる。

MulitiQCはこういった背景から開発された、たくさんのNGSツールの結果をまとめて比較するためのQCツール。簡単なコマンドでファイルを自動認識し、プロジェクト全体を満遍なく評価できる。結果はhtmlで出力される。

 

公式サイト

http://opensource.scilifelab.se/projects/multiqc/

Using MulitiQC Reports

presentation


現在以下のコマンドの出力結果がサポートされている。

f:id:kazumaxneo:20180119181121j:plain

 

2019年1月16日現在。さらに増えている。

f:id:kazumaxneo:20190116141201j:plain

 

RNA seq example report

http://multiqc.info/examples/rna-seq/multiqc_report.html

WGS  example eport

http://multiqc.info/examples/wgs/multiqc_report.html

Bisulfite example eport

http://multiqc.info/examples/bs-seq/multiqc_report.html

Hi-C  example eport

http://multiqc.info/examples/hi-c/multiqc_report.html

 

 

インストール

github

#bioconda (link)
conda install -c bioconda -c conda-forge multiqc -y

#pip
pip install multiqc

 

ラン

使うには、解析が終わったディレクトリで以下のコマンドを打つ。

multiqc .

サブディレクトリも含めてファイルが検索され、tagを認識して自動で結果 がまとめられる。

デフォルトで認識される タグはmultiqc --view-tagsで確認できる。

> multiqc --view-tags

$ multiqc --view-tags

 

MultiQC Available module tag groups:

 

 - ancient:

   - dedup

   - damageprofiler

   - mtnucratio

   - clipandmerge

 - cancer:

   - conpair

   - theta2

 - chip:

   - phantompeakqualtools

   - deeptools

   - homer

   - macs2

 - Denovo:

   - quast

   - busco

   - supernova

 - denovo:

   - prokka

 - DNA:

   - conpair

   - peddy

   - methylQA

   - qualimap

   - preseq

   - quast

   - goleft_indexcov

   - supernova

   - deeptools

   - verifybamid

   - happy

   - homer

   - theta2

   - snpeff

   - gatk

   - htseq

   - bcftools

   - featureCounts

   - fgbio

   - dedup

   - damageprofiler

   - biobambam2

   - mtnucratio

   - picard

   - samblaster

   - samtools

   - sexdeterrmine

   - bamtools

   - jellyfish

   - vcftools

   - longranger

   - stacks

   - bbmap

   - bismark

   - biscuit

   - kat

   - leehom

   - adapterRemoval

   - clipandmerge

   - cutadapt

   - flexbar

   - trimmomatic

   - skewer

   - sortmerna

   - biobloomtools

   - fastq_screen

   - afterqc

   - fastp

   - fastqc

   - minionqc

   - mosdepth

   - clusterflow

   - bcl2fastq

   - interop

   - flash

   - seqyclean

 - hi-c:

   - hicexplorer

   - hicup

   - hicpro

 - Metagenomics:

   - quast

 - Methylation:

   - methylQA

 - methylation:

   - bismark

   - biscuit

   - clusterflow

   - bcl2fastq

   - interop

 - miRNA:

   - mirtrace

 - prokarytotic:

   - prokka

 - RNA:

   - qualimap

   - preseq

   - qorts

   - rna_seqc

   - rsem

   - rseqc

   - disambiguate

   - deeptools

   - sargasso

   - homer

   - htseq

   - featureCounts

   - fgbio

   - biobambam2

   - picard

   - samblaster

   - samtools

   - bamtools

   - bbmap

   - salmon

   - kallisto

   - star

   - hisat2

   - tophat

   - bowtie2

   - bowtie1

   - leehom

   - adapterRemoval

   - cutadapt

   - flexbar

   - trimmomatic

   - skewer

   - sortmerna

   - biobloomtools

   - fastq_screen

   - afterqc

   - fastp

   - fastqc

   - minionqc

   - mosdepth

   - clusterflow

   - bcl2fastq

   - interop

   - flash

   - seqyclean

 - slam:

   - slamdunk

 - smRNA:

   - mirtrace

 - umi:

   - fgbio

 - WGS:

   - conpair

   - longranger

検索パターンはsearch_patterns.yaml に記載されている。condaを使って~/anaconda3のpython3.7に導入しているなら、search_patterns.yaml

anaconda3/lib/python3.7/site-packages/multiqc/utils/search_patterns.yaml 

に存在する。

 

 

例1  fastqc

fastqcで16のfastqファイルのqualityをチェックする。

f:id:kazumaxneo:20180119211540j:plain

fastqc *gz

 ランが終わったらそれぞれのfastqのレポートができる。

f:id:kazumaxneo:20180119213008j:plain

出力をそのままhtmlで見ても、サンプル間の比較がしにくい。

mulitiqcを走らせて、分析結果を統合して表示する。

mulitiqc .

 自動でfastqcの出力ファイルを認識して、情報が統合される。htmlが出力されるので開く。

duplicationのレベル。

f:id:kazumaxneo:20180119213624j:plain

ポジションによるqualityの変化。

f:id:kazumaxneo:20180119213102j:plain

 16サンプルが1つのグラフにまとめられた。これならサンプル間の比較が容易にできる。

 

 

例2  STAR

idnex

mkdir genome #出力用のディレクトリを作成
STAR --runMode genomeGenerate --genomeDir genome/ --genomeFastaFiles reference.fasta --sjdbGTFfile reference.gtf --sjdbOverhang 100 --runThreadN 12

mapping (3サンプル)

STAR --genomeDir genome/ --readFilesIn sample1.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample1

STAR --genomeDir genome/ --readFilesIn sample2.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample2

STAR --genomeDir genome/ --readFilesIn sample3.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample3
mulitiqc .

結果。

f:id:kazumaxneo:20180121191354j:plain

 

 

 

WGSのデータ解析レポート例 

 

 

 

引用

MultiQC: summarize analysis results for multiple tools and samples in a single report

Philip Ewels,,* Måns Magnusson, Sverker Lundin, and Max Käller

Bioinformatics. 2016 Oct 1; 32(19): 3047–3048.