mmquant - macでインフォマティクス

　現在、RNA-Seqは日常的に使用されており、遺伝子の転写に関する正確な情報を得ることができる。しかし、この方法では、重複した遺伝子の発現を正確に推定することができない。これまでに、いくつかの方法（重複した遺伝子を削除する、リードを一様に分配する、発現量を推定する）が用いられてきたが、いずれも偏った結果となっている。
　重複遺伝子を含めた遺伝子発現を計算するツール mmquant を開発した。異なる位置にリードがマッピングされた場合、このツールは対応する遺伝子が重複していることを検出し、遺伝子をマージしてマージ遺伝子を作成する。そして、入力された遺伝子とマージされた遺伝子に基づいて、曖昧なリードのカウントを行う。
mmquant は、広く使用されているツール htseq-count および featureCounts を簡単に置き換えることができるツールであり、マルチマッピングリードを偏りなく扱うことができる。

ref.1より

mmquantは、マルチリードカウントの重み付けや分散を行う代わりに、マルチマップドグループ（MMG）として遺伝子をクラスタリングする。マルチマップリードがアラインメントするすべての遺伝子は、MMGとしてクラスター化され、それを遺伝子としてDEG解析に利用することができる（図3）。（中略）この戦略は、ゲノムにアラインメントして、アノテーションのない領域にアラインメントしているマルチマップリードを特定しようとする場合には、非常に有効である。

インストール

mambaを使ってubuntu18.04に導入した。

Github

#conda (link)
mamba install -c bioconda mmquant -y

> mmquant -h

f:id:kazumaxneo:20210826220203p:plain

実行方法

Coordinate sortされたbamファイルを指定する。アノテーションファイルはGTFかGFFを使う。アノテーションフィーチャ中のgene/transcript/exonタイプのみを使用する。使用しているマッピングツールがマルチマッピングリードをどのように扱うかを確認しておくこと。

mmquant -a genome.gtf -r sample1.bam sample2.bam -o output -t 8 -F

-a annotation file in GTF format
-r reads in BAM/SAM format
-o output file (default: stdout)
-F use featureCounts output style
-t integer: # threads (default: 1)

出力

EdgeRやDESeqなどで使用するためのタブ区切りのファイルを出力する。ユーザーがn個のリードファイルを提供した場合、出力にはn+1列が含まれる。

レポジトリより

あるリード（例えばサイズ100）が遺伝子AとBに明確にマッピングされ、オーバーラップした場合、そのリードは新しい「遺伝子」gene_A--gene_Bに対して1としてカウントされる。
そのような複数の遺伝子にマッピングされたリード（例えば、gene_Bとgene_C）があった場合、テーブルにはgene_B--gene_Cという新しいフィーチャーが追加される（これらの遺伝子にマッピングされたリードはgene_B--gene_Cにカウントされ、gene_Bやgene_Cの行にはカウントされない）。
g オプションを付けると、遺伝子 ID の代わりに遺伝子名が使用される。異なる2つの遺伝子が同じ名前の場合、系統的な名前が追加される。例；Mat2a (ENSMUSG00000053907)
あるリード（例えばサイズ100）が遺伝子AとBに明確にマッピングされるが、遺伝子Aには1塩基しか重ならず、遺伝子Bには100塩基が重なっていた場合、リードカウント値を遺伝子Bに帰属させたいと思うだろう。オプションの-dと-Dはこれを制御する。

引用

mmquant: how to count multi-mapping reads?
Matthias Zytnicki
BMC Bioinformatics volume 18, Article number: 411 (2017)

ref.1