macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

複数のトランスクリプトーム解析からコア遺伝子を探索するGET_HOMOLOGUES-EST

2018 9/27 引用の誤り修正

2020 4/13 インストール手順とヘルプ追記, タイトル修正

2020 4/14  インストール手順修正

2020 5/27 タイトル修正

 

 種のパンゲノムとは、その種のすべての個体に見られるすべての遺伝子とノンコーディング配列の集合体と定義される。しかし、大規模なゲノムを持つ植物のパンゲノムを構築することは、配列決定のコストと必要とされる計算解析の規模の両方において困難である。より手頃な方法として、トランスクリプトームデータを利用してゲノムのレパートリーに注目する方法がある。ここでは、ソフトウェアGET_HOMOLOGUES-ESTを、19のシロイヌナズナエコタイプのゲノムおよびRNA-seqデータを用いてベンチマークし、16のHordeum vulgare遺伝子型からの転写物の解析に適用した。その目的は、それらのパンゲノムをサンプリングし、すべてのアクセッションで検出された場合はコア配列、一部のアクセッションでは検出されなかった場合はアクセサリー配列に分類することであった。その結果得られた配列クラスターは、パンゲノムの成長をシミュレートし、種内変異をまとめた平均ヌクレオチド同一性マトリックスを作成するために使用された。その結果、転写産物はパンゲノムサイズを少なくとも10%程度過小評価していることがわかったが、発現配列のクラスターは系統を再現し、A. thaliana遺伝子モデルで観察される2つの特性を再現できると結論づけた:アクセサリ遺伝子座はコア遺伝子よりも発現が低く、非同義置換率が高い。最後に、アクセサリ配列は、両種のトランスポゾンコンポーネントに加えて、栽培種大麦の病害抵抗性遺伝子、および文献によく見られる有無の変化に関連する他のファミリーの様々なタンパク質ドメインを優先的にコードしていることが観察された。これらの結果は、パンゲノム解析が生殖形質の多様性を探るのに有用であることを示している。

 

Manual

GET_HOMOLOGUES-EST

 

インストール

リリースからmacosのビルドをダウンロードし、macos10.14でテストした。

本体 Github

リリースから、各プラットフォーム向けにGET_HOMOLOGUES-ESTとGET_HOMOLOGUESのバイナリがダウンロードできる。その後、データベースをダウンロードしてインストールする。

cd get_homologues-macosx-20200226/
./install.pl

./get_homologues-est.pl

$ ./get_homologues-est.pl 

 

usage: ./get_homologues-est.pl [options]

 

-h this message

-v print version, credits and checks installation

-d directory with input FASTA files (.fna , optionally .faa),  (use of pre-clustered sequences

   1 per sample, or subdirectories (subdir.clusters/subdir_)    ignores -c)

   with pre-clustered sequences (.faa/.fna ). Files matching

   tag 'flcdna' are handled as full-length transcripts.

   Allows for files to be added later.

   Creates output folder named 'directory_est_homologues'

 

Optional parameters:

-o only run BLASTN/Pfam searches and exit                      (useful to pre-compute searches)

-i cluster redundant isoforms, including those that can be     (min overlap, default: -i 40,

   concatenated with no overhangs, and perform                  use -i 0 to disable)

   calculations with longest

-c report transcriptome composition analysis                   (follows order in -I file if enforced,

                                                                with -t N skips clusters occup<N [OMCL],

                                                                ignores -r,-e)

-R set random seed for genome composition analysis             (optional, requires -c, example -R 1234)

-s save memory by using BerkeleyDB; default parsing stores

   sequence hits in RAM

-m runmode [local|cluster]                                     (default: -m local)

-n nb of threads for BLASTN/HMMER/MCL in 'local' runmode       (default=2)

-I file with .fna files in -d to be included                   (takes all by default, requires -d)

 

Algorithms instead of default bidirectional best-hits (BDBH):

-M use orthoMCL algorithm (OMCL, PubMed=12952885)

 

Options that control sequence similarity searches:

-C min %coverage of shortest sequence in BLAST alignments      (range [1-100],default: -C 75)

-E max E-value                                                 (default: -E 1e-05 , max=0.01)

-D require equal Pfam domain composition                       (best with -m cluster or -n threads)

   when defining similarity-based orthology

-S min %sequence identity in BLAST query/subj pairs            (range [1-100],default: -S 95 [BDBH|OMCL])

-b compile core-transcriptome with minimum BLAST searches      (ignores -c [BDBH])

 

Options that control clustering:

-t report sequence clusters including at least t taxa          (default: t=numberOfTaxa,

                                                                t=0 reports all clusters [OMCL])

-L add redundant isoforms to clusters                          (optional, requires -i)

-r reference transcriptome .fna file                           (by default takes file with

                                                                least sequences; with BDBH sets

                                                                first taxa to start adding genes)

-e exclude clusters with inparalogues                          (by default inparalogues are

                                                                included)

-F orthoMCL inflation value                                    (range [1-5], default: -F 1.5 [OMCL])

-A calculate average identity of clustered sequences,          (optional, creates tab-separated matrix,

 uses blastn results                                            [OMCL])

-P calculate percentage of conserved sequences (POCS),         (optional, creates tab-separated matrix,

 uses blastn results, best with CDS                             [OMCL])

-z add soft-core to genome composition analysis                (optional, requires -c [OMCL])

 

This program uses BLASTN/HMMER to define clusters of 'orthologous' transcripts

and pan/core-trancriptome sets. Different algorithm choices are available

and search parameters are customizable. It is designed to process (in a HPC computer

cluster) files contained in a directory (-d), so that new .fna/.faa files can be added

while conserving previous BLASTN/HMMER results. In general the program will try to re-use

previous results when run with the same input directory.

 

dockerhub

docker pull csicunam/get_homologues

#help
docker run --rm -itv $PWD:/data csicunam/get_homologues get_homologues-est.pl -h

#一部のRライブラリが導入されていないので、ヒートマップなど出力する時にエラにーなる。
以下を入れてコミットし直した。

docker run -it csicunam/get_homologues
> install.packages("gplots")
> install.packages("dendextend")
> install.packages("factoextra")
> quit(y)
#ID確認
docker ps -a
#commit
docker commit xxxxxxxx csicunam/get_homologues

 

 

実行方法

テストデータのラン。ディレクトリ;sample_transcripts_fastaを指定する。

./get_homologues-est.pl -d sample_transcripts_fasta
  • -d directory with input FASTA files (.fna , optionally .faa)

$ ./get_homologues-est.pl -d sample_transcripts_fasta

# ./get_homologues-est.pl -d sample_transcripts_fasta -o 0 -i 40 -e 0 -r 0 -t all -c 0 -z 0 -I 0 -m local -n 2 -M 0 -C 75 -S 95 -E 1e-05 -F 1.5 -b 0 -s 0 -D 0 -R 0 -L 0 -A 0 -P 0

 

# version 26022020

# results_directory=/Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues

# parameters: MAXEVALUEBLASTSEARCH=0.01 MAXPFAMSEQS=250 BATCHSIZE=1000 MINSEQLENGTH=20 MAXSEQLENGTH=25000

 

# checking input files...

# Esterel.trinity.fna.bz2 5892  median length = 506

# Franka.trinity.fna.bz2 6036  median length = 523

# Hs_Turkey-19-24.trinity.fna.bz2 6204  median length = 476

# flcdnas_Hnijo.fna.gz 28620 [full length sequences] median length = 1504

 

# 4 genomes, 46752 sequences

 

# taxa considered = 4 sequences = 46752 residues = 63954041

 

# mask=Esterel_alltaxa_algBDBH_e0_ (_algBDBH)

 

# running makeblastdb with /Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues/Esterel.trinity.fna.bz2.nucl.fasta

 

# running makeblastdb with /Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues/Franka.trinity.fna.bz2.nucl.fasta

 

# running makeblastdb with /Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues/Hs_Turkey-19-24.trinity.fna.bz2.nucl.fasta

 

# running makeblastdb with /Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues/flcdnas_Hnijo.fna.gz.nucl.fasta

 

# running BLAST searches ...

# done

 

# concatenating and sorting blast results...

# sorting _Esterel.trinity.fna.bz2.nucl results (2.5MB)

# sorting _Franka.trinity.fna.bz2.nucl results (2.1MB)

# sorting _Hs_Turkey-19-24.trinity.fna.bz2.nucl results (2.1MB)

# sorting _flcdnas_Hnijo.fna.gz.nucl results (11MB)

# done

 

 

# parsing blast result! (/Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues/tmp/all.blast , 18MB)

# parsing file finished

 

# making temporary indexes required for clustering isoforms

# construct_taxa_indexes: number of taxa found = 4

# number of file addresses/BLAST queries = 4.7e+04

 

# clustering redundant isoforms in Esterel.trinity.fna.bz2.nucl

# Esterel.trinity.fna.bz2.nucl : 41 sequences

 

# clustering redundant isoforms in Franka.trinity.fna.bz2.nucl

# Franka.trinity.fna.bz2.nucl : 65 sequences

 

# clustering redundant isoforms in Hs_Turkey-19-24.trinity.fna.bz2.nucl

# Hs_Turkey-19-24.trinity.fna.bz2.nucl : 60 sequences

 

# clustering redundant isoforms in flcdnas_Hnijo.fna.gz.nucl

# flcdnas_Hnijo.fna.gz.nucl : 2298 sequences

 

# redundancy-filtering blast file

# created nr blast file

 

# parsing blast result! (/Users/kazu/Documents/get_homologues-macosx-20200226/sample_transcripts_fasta_est_homologues/tmp/all.blast.nr , 16MB)

# parsing file finished

 

# creating indexes, this might take some time (lines=2.09e+05) ...

 

# construct_taxa_indexes: number of taxa found = 4

# number of file addresses/BLAST queries = 4.4e+04

 

# clustering orthologous sequences

 

# clustering inparalogues in Esterel.trinity.fna.bz2.nucl (reference)

# 2611 sequences

 

# clustering inparalogues in Franka.trinity.fna.bz2.nucl

# 2057 sequences

 

# finding BDBHs between Esterel.trinity.fna.bz2.nucl and Franka.trinity.fna.bz2.nucl (1)

# 357 sequences

 

# clustering inparalogues in Hs_Turkey-19-24.trinity.fna.bz2.nucl

# 2331 sequences

 

# finding BDBHs between Esterel.trinity.fna.bz2.nucl and Hs_Turkey-19-24.trinity.fna.bz2.nucl (1)

# 307 sequences

 

# clustering inparalogues in flcdnas_Hnijo.fna.gz.nucl

# 5843 sequences

 

# finding BDBHs between Esterel.trinity.fna.bz2.nucl and flcdnas_Hnijo.fna.gz.nucl (1)

# 2006 sequences

 

# looking for valid sequence clusters (n_of_taxa=4)...

 

# number_of_clusters = 17

# cluster_list = sample_transcripts_fasta_est_homologues/Esterel_alltaxa_algBDBH_e0_.cluster_list

# cluster_directory = sample_transcripts_fasta_est_homologues/Esterel_alltaxa_algBDBH_e0_

 

# runtime: 137 wallclock secs (11.31 usr  0.58 sys + 94.95 cusr 12.17 csys = 119.01 CPU)

# RAM use: 139.3 MB

 

出力

f:id:kazumaxneo:20200413155859p:plain

 

 GET_HOMOLOGUESの説明は別の記事に移しました。

引用
Analysis of Plant Pan-Genomes and Transcriptomes with GET_HOMOLOGUES-EST, a Clustering Solution for Sequences of the Same Species
Bruno Contreras-Moreira, Carlos P. Cantalapiedra, María J. García-Pereira, Sean P. Gordon, John P. Vogel, Ernesto Igartua, Ana M. Casas, Pablo Vinuesa

Front Plant Sci. 2017; 8: 184. Published online 2017 Feb 14

 

GET_HOMOLOGUES, a Versatile Software Package for Scalable and Robust Microbial Pangenome Analysis

Contreras-Moreira B, Vinuesa P

Appl Environ Microbiol. 2013 Dec;79(24):7696-701

 

http://journal.frontiersin.org/article/10.3389/fpls.2017.00184/full