macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

スモールオープンリーディングフレーム(smORF)を予測する ORFLine

2021 4/21 追記

 

 100コドン以下(300ヌクレオチド以下)の小さなオープンリーディングフレーム(smORF)のアノテーションは、ゲノム上にそのような配列が多数存在するため、困難を極める。しかし、近年の次世代シーケンスおよびリボソームプロファイリングの発展により、活発に翻訳されているsmORFを同定することが可能になった。本研究では、smORFを厳密に同定し、転写産物中の位置に応じて分類する計算機パイプラインを開発した。その結果、マウスのBおよびTリンパ球のデータセットから5744個のユニークなsmORFを同定し、ORFLineを用いてそれらを系統的に特徴づけることができた。さらに、smORFにシグナルペプチドが存在するかどうかを検索したところ、既知の分泌型ケモカインや新規のマイクロペプチドが予測された。その結果、5つの新規マイクロペプチドが分泌の証拠を示し、免疫調節機能のメディエーター候補となった。

 

インストール

mambaで環境を作り、依存するツールを導入した。

依存

  • Dependencies
  • Samtools and HTSlib
  • bedtools
  • BEDOPS
  • Bowtie
  • STAR
  • FastQC
  • Trim Galore
  • plastid
  • StringTie
  • EMBOSS
  • GNU Parallel (recommended)
  • R
  • Bioconductor

R/Bioconductor packages:

  • riboSeqR
  • GenomicFeatures
  • rtracklayer

Github

#依存の導入
mamba create -n ORFLine python=3.8 -y
conda activate ORFLine
mamba install -c bioconda -y samtools bedtools bedops bowtie star fastqc trim-galore plastid stringtie emboss parallel

#RとR/Bioconductorパッケージ
mamba install -c r -y r

mamba install -c bioconda bioconductor-riboseqr bioconductor-rtracklayer bioconductor-genomicfeatures -y

git clone git://github.com/boboppie/ORFLine.git
cd ORFLine/

インストールチェック 

>bash ./module-check.sh

The following tools or packages are needed to run the pipeline:

 

----------------------------------------------------------------------------------

Samtools and HTSlib

bedtools

BEDOPS

Bowtie

STAR

FastQC

Trim Galore

plastid

StringTie

EMBOSS

GNU Parallel

R

 

R/Bioconductor pakcages:

 

riboSeqR

GenomicFeatures

rtracklayer

----------------------------------------------------------------------------------

 

 

----------------------------------------------------------------------------------

Checking the availability of tools needed for the pipeline...

----------------------------------------------------------------------------------

 

samtools is available.

tabix is available.

bedtools is available.

bedops is available.

bowtie is available.

fastqc is available.

trim_galore is available.

psite is available.

STAR is available.

stringtie is available.

transeq is available.

parallel is available.

R is available.

 

----------------------------------------------------------------------------------

Checking the availability of Bioconductor packages needed for the pipeline...

----------------------------------------------------------------------------------

 

Bioconductor package rtracklayer is available.

Bioconductor package GenomicFeatures is available.

Bioconductor package riboSeqR is available.

All installed.

 

 

 

実行方法(real data setを使用)

1、fastqのダウンロード

wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR160/001/SRR1605271/SRR1605271.fastq.gz
wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR160/004/SRR1605304/SRR1605304.fastq.gz

 

2、リファレンスとアノテーションのダウンロード

bash ./ref-download.sh -o mouse -r M22 -t 4

 

3、ORF予測

bash ./orf-prediction.sh -t 12

 ランにはかなりの時間がかかる。テストデータでは3日かかった。スレッドを増やせるならふやしておく。

 出力

f:id:kazumaxneo:20210421104926p:plain

4、ORFコール

bash ./orf-calling.sh -o mouse -x 10090 -m 32 -n 28 -t 8

 

 

 

 

 

引用

ORFLine: a bioinformatic pipeline to prioritise small open reading frames identifies candidate secreted small proteins from lymphocytes
Fengyuan Hu, Jia Lu, Manuel D. Munoz, Alexander Saveliev, Martin Turner

bioRxiv, Posted January 22, 2021.