macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムのBAMファイルを転写産物の BAM/RAD ファイルに変換してsalmonで扱えるようにする mudskipper

2022/03/25 タイトル修正

 

Githubより

 mudskipper は、ゲノムの BAM/SAM ファイルをトランスクリプトームの BAM/RAD ファイルに変換するツールです。具体的には、各アラインメントエントリーのゲノム座標を、GTF形式の与えられた転写産物アノテーションに基づいて転写産物座標に投影し、ゲノムアラインメントが複数の転写産物と重なる場合には、複数のアラインメントエントリーを生成します。

mudskipperは一般的なアライメント変換/投影ツールとして意図されていますが、現在のmudskipperの焦点は、ショートリードをトランスクリプトーム上に再マッピングせずに、ゲノムアライメントから転写産物を定量することです(例:バルクRNA-SEQサンプルにsalmon、シングルセルRNA-SEQサンプルにalevin-fryを使用)。mudskipperを開発した動機は、リファレンスゲノムに対してショートRNA-Seqリードのアライメントを必要とするツールが多数存在しますが、転写産物定量ツールは、多くの場合、トランスクリプトームに対するショートRNA-Seqリードのアライメントを想定していることにあります。mudskipperは、(ショートRNA-Seqリードをトランスクリプトームに対して直接マッピングしないことにより)プロセスをゼロから始める代わりに、ゲノムアライメントを用いて転写産物定量を実行することができます。

 

 

Tutorial

https://combine-lab.github.io/salmon-tutorials/2021/mudskipper-bulk/

 

バルクサンプルのRNA-Seqリードのリファレンスゲノムに対するアライメントを含むBAM/SAMファイルがある場合、salmonなどの多くの最先端ツールでは、それを転写産物の定量に使用することができない。salmonには非常に高速なマッピングモジュールが組み込まれているが、mudskipper bulkコマンドを使用してゲノムのアラインメントをトランスクリプトーム座標に投影することにより、再マッピングを回避することができる。具体的には、mudskipperはトランスクリプトームアラインメントをBAMファイルとして出力し、それを-aまたは--alignments入力オプションでsalmon quantに渡すことでゲノムのアラインメントからの定量が可能になる。

 

インストール

Github

git clone https://github.com/OceanGenomics/mudskipper.git
cd mudskipper/
cargo build --release
cd target/release/

> ./mudskipper -h

mudskipper 0.1.0

Converting RNA-Seq alignments from genome cooridinates to transcriptome coordinates.

 

USAGE:

    mudskipper <SUBCOMMAND>

 

FLAGS:

    -h, --help       Prints help information

    -V, --version    Prints version information

 

SUBCOMMANDS:

    index    Parse the GTF and build an index to make later runs faster.

    bulk     Convert alignment of bulk RNA-Seq reads against genome to alignment against transcriptome.

    sc       Convert alignment of single-cell RNA-Seq reads against genome to alignment against transcriptome.

 

 

 

実行方法

バルクRNA-SeqのゲノムマッピングBAMをトランスクリプトBAMに変換し、Salmonで定量する。bamファイルとgtfファイル、出力のtranscripts.bamを指定する。

mudskipper bulk --gtf annotation.gtf --alignment genomic.bam --out transcriptomic.bam

#single cell RNA seq
mudkipper sc --gtf annotation.gtf --alignment genomic.sam --out transcriptomic_dir

 

もしくは先にindexを作る。

mudskipper index --gtf annotation.gtf --dir-index gtf_index

gtf_index/

f:id:kazumaxneo:20220325004910p:plain

作成したindexを指定する。

#bulk RNA seq
mudskipper bulk --index gtf_index --alignment genomic.bam --out transcriptomic.bam

 

引用

https://github.com/OceanGenomics/mudskipper#building-from-source

 

関連