macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

様々なバイオインフォマティクスツールの分析結果を1つに集約して分析できる MulitiQC

 

今まで様々なNGSの評価ツールが発表されてきたが、それらは特定のデータを評価するものであり、プロジェクト全体で品質評価(クオリティチェック)するためのツールがなかった。プロジェクト全体で一貫した品質評価ができないと、チェック漏れが出てしまう恐れがある。例えば、fastqcでfastqを分析すると、データごとに分析結果がビジュアル出力される。大量のシーケンスデータを処理していると、この分析だけでもたくさんの時間がかかり、エラーの多いデータの見過ごしも出てくる可能性が高まる。外れ値のデータの除去漏れなどがないようにするには、NGSのデータをまとめて解析・出力し、結果を1つの図または表に落とし込んで比較できる使いやすいツールが必要となる。

MulitiQCはこういった背景から開発された、たくさんのNGSツールの結果をまとめて比較するためのQCツール。簡単なコマンドでファイルを自動認識し、プロジェクト全体を満遍なく評価できる。結果はhtmlで出力される。

 

公式サイト

http://opensource.scilifelab.se/projects/multiqc/

Using MulitiQC Reports

presentation


現在以下のコマンドの出力結果がサポートされている。

f:id:kazumaxneo:20180119181121j:plain

 

RNA seq example report

http://multiqc.info/examples/rna-seq/multiqc_report.html

WGS  example eport

http://multiqc.info/examples/wgs/multiqc_report.html

Bisulfite example eport

http://multiqc.info/examples/bs-seq/multiqc_report.html

Hi-C  example eport

http://multiqc.info/examples/hi-c/multiqc_report.html

 

インストール

github

https://github.com/ewels/MultiQC 

pip install multiqc

 

ラン

使うには、解析が終わったディレクトリで以下のコマンドを打つ。

multiqc .

 

 

例1  fastqc

fastqcで16のfastqファイルのqualityをチェックする。

f:id:kazumaxneo:20180119211540j:plain

fastqc *gz

 ランが終わったらそれぞれのfastqのレポートができる。

f:id:kazumaxneo:20180119213008j:plain

出力をそのままhtmlで見ても、サンプル間の比較がしにくい。

mulitiqcを走らせて、分析結果を統合して表示する。

mulitiqc .

 自動でfastqcの出力ファイルを認識して、情報が統合される。htmlが出力されるので開く。

duplicationのレベル。

f:id:kazumaxneo:20180119213624j:plain

ポジションによるqualityの変化。

f:id:kazumaxneo:20180119213102j:plain

 16サンプルが1つのグラフにまとめられた。これならサンプル間の比較が容易にできる。

 

 

例2  STAR

idnex

mkdir genome #出力用のディレクトリを作成
STAR --runMode genomeGenerate --genomeDir genome/ --genomeFastaFiles reference.fasta --sjdbGTFfile reference.gtf --sjdbOverhang 100 --runThreadN 12

mapping (3サンプル)

STAR --genomeDir genome/ --readFilesIn sample1.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample1

STAR --genomeDir genome/ --readFilesIn sample2.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample2

STAR --genomeDir genome/ --readFilesIn sample3.fastq --runThreadN 12 --outSAMtype BAM SortedByCoordinate --outFileNamePrefix sample3
mulitiqc .

結果。

f:id:kazumaxneo:20180121191354j:plain

 

 

 

WGSのデータ解析レポート例 

 

 

 

引用

MultiQC: summarize analysis results for multiple tools and samples in a single report

Philip Ewels,,* Måns Magnusson, Sverker Lundin, and Max Käller

Bioinformatics. 2016 Oct 1; 32(19): 3047–3048.