2019 1/16 誤字修正および対応ツール情報更新、12/29 ツイート追加
2020 1/17 condaインストール追記、4/19 説明追記、5/25 ツイート追記
2023/12/20ツイート追記
今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質評価ができないと、チェック漏れが出てしまう恐れがある。例えば、fastqcでfastqを分析すると、データごとに分析結果がビジュアル出力される。大量のシーケンスデータを処理していると、この分析だけでもたくさんの時間がかかり、エラーの多いデータの見過ごしも出てくる可能性が高まる。外れ値のデータの除去漏れなどがないようにするには、NGSのデータをまとめて解析・出力し、結果を1つの図または表に落とし込んで比較できる使いやすいツールが必要となる。
MulitiQCはこういった背景から開発された、たくさんのNGSツールの結果をまとめて比較するためのQCツール。簡単なコマンドでファイルを自動認識し、プロジェクト全体を満遍なく評価できる。結果はhtmlで出力される。
公式サイト
http://opensource.scilifelab.se/projects/multiqc/
Using MulitiQC Reports
presentation
現在以下のコマンドの出力結果がサポートされている。
2019年1月16日現在。さらに増えている。
RNA seq example report
http://multiqc.info/examples/rna-seq/multiqc_report.html
WGS example eport
http://multiqc.info/examples/wgs/multiqc_report.html
Bisulfite example eport
http://multiqc.info/examples/bs-seq/multiqc_report.html
Hi-C example eport
http://multiqc.info/examples/hi-c/multiqc_report.html
2023/12/20
MultiQC v1.19 was just released - just in time for the holidays! 🎁 🎄
— MultiQC (@MultiQC) 2023年12月18日
This release has a bunch of bugfixes, with 9 different modules receiving tweaks and improvements 🛠️ The MultiQC core code also got a bit of sprucing up and spring cleaning 🧽🫧
Enjoy!https://t.co/wSpbUKxIq2
It's finally happened! After talking about it for years, the @MultiQC GitHub repo has finally left @tallphil's personal account and moved to the @MultiQC organisation! 💥
— MultiQC (@MultiQC) 2023年12月18日
Whilst we were at it, we also renamed `master` -> `main` 🎉https://t.co/5OPE5wBsse
2019/11/21
✨🎉🎊🌈 MultiQC v1.8 is released! 🌈🎊🎉✨
— Phil Ewels (@tallphil) 2019年11月21日
Nearly a year in the making (👶👶🍼🙄) this release is packed with updates and bug fixes - thanks for your patience, especially those who submitted issues and the 19 code contributors involved in v1.8!https://t.co/qDmiyRcKhA
インストール
#bioconda (link)
conda install -c bioconda -c conda-forge multiqc -y
#pip
pip install multiqc
ラン
使うには、解析が終わったディレクトリで以下のコマンドを打つ。
multiqc .
サブディレクトリも含めてファイルが検索され、tagを認識して自動で結果 がまとめられる。
デフォルトで認識される タグはmultiqc --view-tagsで確認できる。
> multiqc --view-tags
$ multiqc --view-tags
MultiQC Available module tag groups:
- ancient:
- dedup
- damageprofiler
- mtnucratio
- clipandmerge
- cancer:
- conpair
- theta2
- chip:
- phantompeakqualtools
- deeptools
- homer
- macs2
- Denovo:
- quast
- busco
- supernova
- denovo:
- prokka
- DNA:
- conpair
- peddy
- methylQA
- qualimap
- preseq
- quast
- goleft_indexcov
- supernova
- deeptools
- verifybamid
- happy
- homer
- theta2
- snpeff
- gatk
- htseq
- bcftools
- featureCounts
- fgbio
- dedup
- damageprofiler
- biobambam2
- mtnucratio
- picard
- samblaster
- samtools
- sexdeterrmine
- bamtools
- vcftools
- longranger
- stacks
- bbmap
- bismark
- biscuit
- kat
- leehom
- adapterRemoval
- clipandmerge
- cutadapt
- flexbar
- trimmomatic
- skewer
- sortmerna
- biobloomtools
- fastq_screen
- afterqc
- fastp
- fastqc
- minionqc
- mosdepth
- clusterflow
- bcl2fastq
- interop
- flash
- seqyclean
- hi-c:
- hicexplorer
- hicup
- hicpro
- Metagenomics:
- quast
- Methylation:
- methylQA
- methylation:
- bismark
- biscuit
- clusterflow
- bcl2fastq
- interop
- miRNA:
- mirtrace
- prokarytotic:
- prokka
- RNA:
- qualimap
- preseq
- qorts
- rna_seqc
- rsem
- rseqc
- disambiguate
- deeptools
- sargasso
- homer
- htseq
- featureCounts
- fgbio
- biobambam2
- picard
- samblaster
- samtools
- bamtools
- bbmap
- salmon
- kallisto
- star
- hisat2
- tophat
- bowtie2
- bowtie1
- leehom
- adapterRemoval
- cutadapt
- flexbar
- trimmomatic
- skewer
- sortmerna
- biobloomtools
- fastq_screen
- afterqc
- fastp
- fastqc
- minionqc
- mosdepth
- clusterflow
- bcl2fastq
- interop
- flash
- seqyclean
- slam:
- slamdunk
- smRNA:
- mirtrace
- umi:
- fgbio
- WGS:
- conpair
- longranger
検索パターンはsearch_patterns.yaml に記載されている。condaを使って~/anaconda3のpython3.7に導入しているなら、search_patterns.yaml は
anaconda3/lib/python3.7/site-packages/multiqc/utils/search_patterns.yaml
に存在する。
例1 fastqc
fastqcで16のfastqファイルのqualityをチェックする。
fastqc *gz
ランが終わったらそれぞれのfastqのレポートができる。
出力をそのままhtmlで見ても、サンプル間の比較がしにくい。
mulitiqcを走らせて、分析結果を統合して表示する。
mulitiqc .
自動でfastqcの出力ファイルを認識して、情報が統合される。htmlが出力されるので開く。
duplicationのレベル。
ポジションによるqualityの変化。
16サンプルが1つのグラフにまとめられた。これならサンプル間の比較が容易にできる。
例2 STAR
idnex
mkdir genome #出力用のディレクトリを作成
STAR --runMode genomeGenerate --genomeDir genome/ --genomeFastaFiles reference.fasta --sjdbGTFfile reference.gtf --sjdbOverhang 100 --runThreadN 12
mapping (3サンプル)
STAR --genomeDir genome/ --readFilesIn sample1.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample1
STAR --genomeDir genome/ --readFilesIn sample2.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample2
STAR --genomeDir genome/ --readFilesIn sample3.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample3
mulitiqc .
結果。
引用
MultiQC: summarize analysis results for multiple tools and samples in a single report
Philip Ewels,,* Måns Magnusson, Sverker Lundin, and Max Käller
Bioinformatics. 2016 Oct 1; 32(19): 3047–3048.
2021 04
Here's another #Rstats package that I've just published on CRAN! TidyMultiqc converts QC reports from MultiQC into tidy R data frames for further downstream analysis: https://t.co/uYR0LkvkfJ
— Michael Milton (@multimeric) 2021年4月10日
I added a new section to the #MultiQC docs about tools designed to work with MultiQC output for downstream analysis: https://t.co/SeDS6R7dhR Am I missing any? 🔭🕵🏻♂️📊
— Phil Ewels (@tallphil) 2021年4月18日