macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

mmquant

 

  現在、RNA-Seqは日常的に使用されており、遺伝子の転写に関する正確な情報を得ることができる。しかし、この方法では、重複した遺伝子の発現を正確に推定することができない。これまでに、いくつかの方法(重複した遺伝子を削除する、リードを一様に分配する、発現量を推定する)が用いられてきたが、いずれも偏った結果となっている。
 重複遺伝子を含めた遺伝子発現を計算するツール mmquant を開発した。異なる位置にリードがマッピングされた場合、このツールは対応する遺伝子が重複していることを検出し、遺伝子をマージしてマージ遺伝子を作成する。そして、入力された遺伝子とマージされた遺伝子に基づいて、曖昧なリードのカウントを行う。
mmquant は、広く使用されているツール htseq-count および featureCounts を簡単に置き換えることができるツールであり、マルチマッピングリードを偏りなく扱うことができる。

 

ref.1より

mmquantは、マルチリードカウントの重み付けや分散を行う代わりに、マルチマップドグループ(MMG)として遺伝子をクラスタリングする。マルチマップリードがアラインメントするすべての遺伝子は、MMGとしてクラスター化され、それを遺伝子としてDEG解析に利用することができる(図3)。(中略)この戦略は、ゲノムにアラインメントして、アノテーションのない領域にアラインメントしているマルチマップリードを特定しようとする場合には、非常に有効である。

 

インストール

mambaを使ってubuntu18.04に導入した。

Github

#conda (link)
mamba install -c bioconda mmquant -y

> mmquant -h

f:id:kazumaxneo:20210826220203p:plain

 

 

実行方法

Coordinate sortされたbamファイルを指定する。アノテーションファイルはGTFかGFFを使う。アノテーションフィーチャ中のgene/transcript/exonタイプのみを使用する。使用しているマッピングツールがマルチマッピングリードをどのように扱うかを確認しておくこと。

mmquant -a genome.gtf -r sample1.bam sample2.bam -o output -t 8 -F
  • -a   annotation file in GTF format
  • -r    reads in BAM/SAM format
  • -o   output file (default: stdout) 
  • -F   use featureCounts output style
  • -t    integer: # threads (default: 1)

 

出力

EdgeRやDESeqなどで使用するためのタブ区切りのファイルを出力する。ユーザーがn個のリードファイルを提供した場合、出力にはn+1列が含まれる。

 

レポジトリより

  • あるリード(例えばサイズ100)が遺伝子AとBに明確にマッピングされ、オーバーラップした場合、そのリードは新しい「遺伝子」gene_A--gene_Bに対して1としてカウントされる。
  • そのような複数の遺伝子にマッピングされたリード(例えば、gene_Bとgene_C)があった場合、テーブルにはgene_B--gene_Cという新しいフィーチャーが追加される(これらの遺伝子にマッピングされたリードはgene_B--gene_Cにカウントされ、gene_Bやgene_Cの行にはカウントされない)。
  • g オプションを付けると、遺伝子 ID の代わりに遺伝子名が使用される。異なる2つの遺伝子が同じ名前の場合、系統的な名前が追加される。例;Mat2a (ENSMUSG00000053907)
  • あるリード(例えばサイズ100)が遺伝子AとBに明確にマッピングされるが、遺伝子Aには1塩基しか重ならず、遺伝子Bには100塩基が重なっていた場合、リードカウント値を遺伝子Bに帰属させたいと思うだろう。オプションの-dと-Dはこれを制御する。

 

引用

mmquant: how to count multi-mapping reads?
Matthias Zytnicki
BMC Bioinformatics volume 18, Article number: 411 (2017)

 

ref.1