macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

繰り返し配列を分析する RepeatProfiler

2020 7/7 リンクミス修正

 

 モデル生物におけるDNAリピートの研究は、ゲノムの進化や表現型の変化を促進する多くのプロセスにおけるリピートDNAの役割を浮き彫りにしている。反復配列はシングルコピーDNAよりもはるかにダイナミックであるため、進化の遅いゲノム領域の配列では明らかにならないような、短い時間スケールでの進化の歴史のシグナルを明らかにすることができる。リピートを研究するための多くのツールは、ゲノムアセンブリやリピートライブラリなど、既存のゲノムリソースを持つ生物を対象としている。しかし、ゲノム資源が限られている多様な非モデル生物群の進化の歴史を解明する上では、リピート変異のシグナルが特に有用であることが証明されるかもしれない。ここでは、カバー率の低いショートリードシークエンシングデータからリピートDNAプロファイルを生成、可視化、比較するためのツールであるRepeatProfilerを紹介する。RepeatProfilerは、リピートDNAカバレッジデプスプロファイルの生成と可視化を自動化し、サンプル間でプロファイル形状を統計的に比較することができる。さらに、RepeatProfilerは、プロファイル間の配列変異からシグナルを抽出し、系統解析を用いて分子形態学的特性として解析することで、プロファイルの比較を容易にする。著者らはカブトムシ(Bembidion)、ハエ(Drosophila)、トマト(Solanum)のデータセットでRepeatProfilerを検証した。種の区別、比較ゲノム、リピート生物学の研究のための高分解能データソースとしてのリピートDNAプロファイルの可能性を強調する。

 

https://twitter.com/search?q=RepeatProfiler&src=typed_query

 

インストール

brewでも導入できるが、checksumエラーが出たのでdocker imageを使ってテストした。

Github

#homebrew
brew install HounerX/homebrew-repo/repeatprof

#dockerhub
docker pull durberg7/repeatprof

 > docker run --rm -it durberg7/repeatprof bash repeatprof

$ sudo docker run --rm -it durberg7/repeatprof bash repeatprof

RepeatProfiler v 0.92 -prerelease- x Singlecopy x new x Correlation x

please use -h flag to view help menu for how to use this tool

____ ____ ___  ____ ____ ___    ___  ____ ____ ____ _ _    ____ ____

|__/ |___ |__] |___ |__|  |     |__] |__/ |  | |___ | |    |___ |__/ 

|  \ |___ |    |___ |  |  |     |    |  \ |__| |    | |___ |___ |  \ 

 

 

sudo docker run --rm -it durberg7/repeatprof bash repeatprof -h

$ sudo docker run --rm -it durberg7/repeatprof bash repeatprof -h

generating symlinks

 

Usage:

repeatprof profile <-p for paired reads or  -u for unpaired> <the refrence sequence path > <path of the folder containing reads> [opitonal flags]

 

optional flags:

-o <folder_path> use to specifiy an directory where the final output file  be directed to. Default: current directory

-corr type this flag to make the correlation analysis. user_groups.txt will be assumed to be in same directory

-corr <user_groups.txt path >   type this flag to make the correlation analysis providing User_provided.txt path

-k use this flag if you want to keep the sorted bam files of the alignments in the final output folder

 

other optional flags can be used:

--very-sensitive bowtie alignment setting. Default:--very-sensitive

--very-fast bowtie alignment setting. Default:--very-sensitive

--local bowtie alignment setting. Default:--very-sensitive

--fast bowtie alignment setting. Default:--very-sensitive

--very-fast-local bowtie alignment setting. Default:--very-sensitive

--fast-local bowtie alignment setting. Default:--very-sensitive

--sensitive bowtie alignment setting. Default:--very-sensitive

--very-sensitive bowtie alignment setting. Default:--very-sensitive

--very-sensitive-local         bowtie alignment setting. Default:--very-sensitive

--sensitive-local bowtie alignment setting. Default:--very-sensitive

 

Supported input formats:

reference: .fa .fasta .txt 

Paired reads: _R1.fastq _R1.fastq.gz _R1.fq  _R1.fq.gz  _1.fastq _1.fastq.gz _1.fq  _1.fq.gz  

              _R2.fastq _R2.fastq.gz _R2.fq  _R2.fq.gz  _2.fastq _2.fastq.gz _2.fq  _2.fq.gz  

Unpaired reads:  .fastq .fastq.gz .fq  .fq.gz  .fastq .fastq.gz .fq

 

references need to be in fasta format. They can be multi-sequence or single sequence fasta file.

 

--------------------------------other usages: 

 

repeatprof pre-corr <-u for unpaired reads  or -p paired reads> <path of the folder containing reads> use this command to help prepare user_groups.txt for correlation graph produced by -corr flag in profile 

 

repeatprof pre-corr -v  use this command to review your edited user_groups.txt with your desired groups. This ensures that it is still in the correct file format. Need to be in same directory as file

 

repeatprof clean use this command to cleanup a broken/terminated run

 

check our github page https://github.com/johnssproul/RepeatProfiler for more  detailed info  on how to run the tool/sample inputs/ output explanation/tutorial 

(repeatmodeler) kazu@kazu:~/Downloads/test/sample_data$ 

 

 

 

テストラン

ランにはシークエンシングデータのfastqとリファレンスのFASTAファイルが必要。テストデータを使って動作確認する。

1、テストデータのダウンロード

wget https://github.com/johnssproul/RepeatProfiler/releases/download/0.96/sample_data.zip
unzip sample_data.zip && cd sample_data/

sample_dataの中身

f:id:kazumaxneo:20200618002112p:plain

(Valid extensions are '.fastq', '.fq'. Compressed reads ‘i.e., .fastq.gz’ also supported. For paired reads, the last string before the file extension should be ‘_1’ for Read1 and ‘_2’ for Read2 (alternatively ‘_R1’ and ‘_R2’ may be used).)

 

 2、dockerイメージを使ったRepeatProfilerのprofileコマンドの実行

リファレンスFASTAとfastqが置いてあるディレクトリを指定する。

sudo docker run --rm -itv $PWD:/data durberg7/repeatprof bash repeatprof profile -p /data/reference.fa /data/ -o /data

 出力

f:id:kazumaxneo:20200617235308p:plain

variant_profiles.pdf

f:id:kazumaxneo:20200618004239p:plain

拡大

f:id:kazumaxneo:20200618004427p:plain

このファイルには、このリファレンス内のすべてのサンプルの分散強調プロファイルが含まれている。これらのプロファイルは、サンプル間でリファレンス配列に対するバリアントのbp分解能を示しており、サンプル間で比較した場合にも興味深いパターンを明らかにすることができる。

 

scaled_profiles_allrefs/melR1.pdf

f:id:kazumaxneo:20200618004810p:plain

scaled_profiles_allrefsディレクトリには、同じカラースケールで表示されるラン全体(すなわち全リファレンス配列)のカラー強調プロファイルが出力される。これは,各リファレンスの出力フォルダにある 'scaled_profiles.pdf' ファイルと似ているが,カラースケールがリファレンスシーケンス内で観測された最大値ではなく,実行中のすべてのプロファイルの最大カバレッジに基づいて設定されている点が異なる。繰り返しにまたがる興味深いパターンを識別するのに役立つ。

 

実行方法

同じリファレンスの複数サンプルfastqが存在する場合(複数individualsのデータなど)、そのfastqディレクトリを指定してランすることでサンプル間のプロファイル形状を比較できる。その場合、user_groups.txtを指定してfastqのグループを指定する必要がある。このuser_groups.txtはrepeatprof pre-corrコマンドで自動作成することができる。

repeatprof pre-corr <'-u' for unpaired reads or '-p' for paired reads> <path reads folder>

 詳細はGithub参照。

 

引用

RepeatProfiler: a pipeline for visualization and comparative analysis of repetitive DNA profiles

S. Negm, A. Greenberg, A.M. Larracuente, J.S. Sproul

bioRxiv, Posted May 26, 2020