macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

TPMCalculator

 

 次世代シークエンシング技術は、我々が生物系を分析する方法を変え、RNAシークエンシング(RNA-seq)が標準的な手順になった。ほとんどのRNA-seq実験はサンプル間の転写産物量を測定および比較を行う。これはさまざまな実験条件下で遺伝子発現プロファイルを分析するための重要なステップである。

 2008年に、Mortazaviらは、mRNAの存在量を測定するために設計された正規化法を導入し、その尺度を「100万マップリードあたりのエクソンモデルのキロベースあたりのリード数」(RPKM)と名付けた(Mortazavi et al、2008)。これは後にTrapnellらによって修正され、「100万フラグメント当たりの転写産物のキロベース当たりのフラグメント」(FPKM)となった(Trapnelli et al、2010)。 RPKMとFPKMはどちらも、同じサンプルのゲノムの特徴を比較しながらmRNAの存在量を定量化する実用的な方法を提供するが、複数のサンプルを比較すると偏った値を示すことがある(Wagner et al、2012)。この矛盾、および異なる実験条件からの複数の試料を比較するときにRNA-Seqデータ分析がより有用であるという事実のために、Wagnerらは、RPKMとFPKMに代わりの量である「100万あたりのトランスクリプト」(TPM)を導入し、独立したサンプル間のRNAシーケンス量を比較しながら矛盾を修正した。

 RPKMまたはFPKMに関するmRNAの存在量の単位がサンプル間で異なるという理論的および実証的な実証にもかかわらず(Wagner et al、2012)、研究コミュニティによって使用される最も人気のある計算ツールは、まだRPKMまたはFPKM Salmon(Patro et al、2017)のように、TPM計算をパイプラインに統合した創発的な計算ツールがあるが、このアプリケーションは転写産物のみに限定されており、他のゲノム特徴量の推定には使用できない。他の定量化にTPMを使用したい研究者は、生のリードカウントからTPM値を計算するための独自のスクリプトを実装する必要がある。このプロセスでは、ワークフローパイプラインに追加の手順を導入することによって、未加工のリード数を計算するためのサードパーティ製ソフトウェアの使用が必要である。これは、リードアサインメントモデルにおける矛盾、およびGenBankおよびRefSeq(Coordinators、2018)などの注釈付きデータベースにおけるゲノムの特徴の定義の変化による矛盾が原因で起こりがちである。

 RNA-Seqの存在量の定量化の価値とBAMファイルを処理し、アライメントから直接正確なTPM値を計算するための計算ツールの欠如を考慮して、著者らはTPMCalculatorというソフトウェアパッケージを開発した。

 TPMCalculatorは、BAMファイルを解析してアライメントから直接mRNAの存在量を定量する。入力パラメータは、アラインメントを生成するために使用されたのと同じGTFファイル、およびシングルエンドまたはペアエンドのリードを含む1つまたは複数の入力BAMファイルである。 TPMCalculatorの出力は、遺伝子、転写産物、エクソンおよびイントロンTPM値と生のリード数の、サンプルあたり5つのファイルで構成されている。

 

 

インストール

macos10.14でテストした。

依存

  • bamtools (condaで導入する場合は別途ビルドする必要はない)
git clone https://github.com/pezmaster31/bamtools.git
cd bamtools/
mkdir build
cd build
cmake -DCMAKE_INSTALL_PREFIX=../ ..
make -j 8
make install
cd ..
export BAMTOOLS_DIR=`pwd`
export CPPFLAGS="-I $BAMTOOLS_DIR/include/bamtools/"
export LDFLAGS="-L $BAMTOOLS_DIR/lib64 -Wl,-rpath,$BAMTOOLS_DIR/lib64"

本体 Github

#bioconda (link)
conda install -c bioconda -y tpmcalculator

git clone https://github.com/ncbi/TPMCalculator.git
cd TPMCalculator/
make -j 8

./TPMCalculator

$ TPMCalculator 

 

********************************************************************************

 

Usage: TPMCalculator

 

TPMCalculator options:

 

-v    Print info

-version    Print version

-h    Display this usage information.

-g    GTF file

-d    Directory with the BAM files

-b    BAM file

-k    Gene key to use from GTF file. Default: gene_id

-t    Transcript key to use from GTF file. Default: transcript_id

-c    Smaller size allowed for an intron created for genes. Default: 16. We recommend to use the reads length

-p    Use only properly paired reads. Default: No. Recommended for paired-end reads.

-q    Minimum MAPQ value to filter out reads. Default: 0. This value depends on the aligner MAPQ value.

-o    Minimum overlap between a reads and a feature. Default: 8.

-e    Extended output. This will include transcript level TPM values. Default: No.

-a    Print out all features with read counts equal to zero. Default: No.

 

********************************************************************************

 

                        Roberto Vera Alvarez, PhD

                      Emails: veraalva@ncbi.nlm.nih.gov

 

********************************************************************************

 

オーサーらの準備したdockerイメージレシピも利用できます。

docker build -t biocontainers/tpmcalculator:0.0.1 https://raw.githubusercontent.com/ncbi/TPMCalculator/master/Dockerfile 

docker run -v /path_to_data:/data --user=yourUID:your:GID biocontainers/tpmcalculator:0.0.1 TPMCalculator -g /data/path_to_GTF/genes.gtf -b /data/path_to_bam/sample1.bam

 

 

実行方法

bamと、bamのマッピングに使ったゲノムのGTFファイルを指定する。カウント対象のフィーチャーはデフォルトではgene_id。

TPMCalculator -g genes.gtf -b sample1.bam > output 2> log
  • -g    GTF file
  • -d    Directory with the BAM files
  • -b    BAM file
  • -k    Gene key to use from GTF file. Default: gene_id
     

 

 

 

引用

TPMCalculator: one-step software to quantify mRNA abundance of genomic features
Roberto Vera Alvarez Lorinc Sandor Pongor Leonardo Mariño-Ramírez David Landsman
Bioinformatics, Volume 35, Issue 11, 1 June 2019, Pages 1960–1962

 

関連