2022/03/25 タイトル修正
Githubより
mudskipper は、ゲノムの BAM/SAM ファイルをトランスクリプトームの BAM/RAD ファイルに変換するツールです。具体的には、各アラインメントエントリーのゲノム座標を、GTF形式の与えられた転写産物アノテーションに基づいて転写産物座標に投影し、ゲノムアラインメントが複数の転写産物と重なる場合には、複数のアラインメントエントリーを生成します。
mudskipperは一般的なアライメント変換/投影ツールとして意図されていますが、現在のmudskipperの焦点は、ショートリードをトランスクリプトーム上に再マッピングせずに、ゲノムアライメントから転写産物を定量することです(例:バルクRNA-SEQサンプルにsalmon、シングルセルRNA-SEQサンプルにalevin-fryを使用)。mudskipperを開発した動機は、リファレンスゲノムに対してショートRNA-Seqリードのアライメントを必要とするツールが多数存在しますが、転写産物定量ツールは、多くの場合、トランスクリプトームに対するショートRNA-Seqリードのアライメントを想定していることにあります。mudskipperは、(ショートRNA-Seqリードをトランスクリプトームに対して直接マッピングしないことにより)プロセスをゼロから始める代わりに、ゲノムアライメントを用いて転写産物定量を実行することができます。
Another @rustlang bioinformatics tool that may be of interest to some! mudskipper is a tool for converting / projecting genomic alignments into other (mostly transcriptomic) coordinates. Why might this be useful? https://t.co/eTJWLCks8n 1/🧵
— Rob Patro (@nomad421) March 22, 2022
Tutorial
https://combine-lab.github.io/salmon-tutorials/2021/mudskipper-bulk/
バルクサンプルのRNA-Seqリードのリファレンスゲノムに対するアライメントを含むBAM/SAMファイルがある場合、salmonなどの多くの最先端ツールでは、それを転写産物の定量に使用することができない。salmonには非常に高速なマッピングモジュールが組み込まれているが、mudskipper bulkコマンドを使用してゲノムのアラインメントをトランスクリプトーム座標に投影することにより、再マッピングを回避することができる。具体的には、mudskipperはトランスクリプトームアラインメントをBAMファイルとして出力し、それを-aまたは--alignments入力オプションでsalmon quantに渡すことでゲノムのアラインメントからの定量が可能になる。
インストール
git clone https://github.com/OceanGenomics/mudskipper.git
cd mudskipper/
cargo build --release
cd target/release/
> ./mudskipper -h
mudskipper 0.1.0
Converting RNA-Seq alignments from genome cooridinates to transcriptome coordinates.
USAGE:
mudskipper <SUBCOMMAND>
FLAGS:
-h, --help Prints help information
-V, --version Prints version information
SUBCOMMANDS:
index Parse the GTF and build an index to make later runs faster.
bulk Convert alignment of bulk RNA-Seq reads against genome to alignment against transcriptome.
sc Convert alignment of single-cell RNA-Seq reads against genome to alignment against transcriptome.
実行方法
バルクRNA-SeqのゲノムマッピングBAMをトランスクリプトBAMに変換し、Salmonで定量する。bamファイルとgtfファイル、出力のtranscripts.bamを指定する。
mudskipper bulk --gtf annotation.gtf --alignment genomic.bam --out transcriptomic.bam
#single cell RNA seq
mudkipper sc --gtf annotation.gtf --alignment genomic.sam --out transcriptomic_dir
もしくは先にindexを作る。
mudskipper index --gtf annotation.gtf --dir-index gtf_index
gtf_index/
作成したindexを指定する。
#bulk RNA seq
mudskipper bulk --index gtf_index --alignment genomic.bam --out transcriptomic.bam
引用
https://github.com/OceanGenomics/mudskipper#building-from-source
関連