2019 6/19 関連論文追記
2020 2/17 依存のインストール手順更新
EvidentialGeneのtr2aacds.plは、de novo アセンブルツールの結果から生物学的に有用な最良のmRNAセットにクラスタリングするパイプライン。論文は準備中で不明な点もあるが、ポスターによると以下の流れで冗長なtranscirptsを減らすらしい。fastanrdbとcd-hitを使ったあと、blastを使いprimaryなtranscirptsを選抜している。
Algorithm of tr2aacds:
0. collect input transcripts.tr, produce CDS and AA sequences, work mostly on CDS.
1. perfect redundant removal with fastanrdb
2. perfect fragment removal with cd-hit-est
3. blastn, basic local align high-identity subsequences for alternate tr.
4. classify main/alternate cds, okay & drop subsets by CDS-align, protein metrics.
5. output sequence sets from classifier: okay-main, okay-alts, drops. See http://eugenes.org/EvidentialGene/about/EvidentialGene_trassembly_pipe.html
すでにいくつかのde novo transcriptome解析の論文で、複数のde novo アセンブルツールの結果をマージして冗長性を減らすために使われている(ref1)。
公式サイト
http://arthropods.eugenes.org/genes2/about/EvidentialGene_trassembly_pipe.html
https://sourceforge.net/p/evidentialgene/wiki/Home/
インストール
依存
- fastanrdb of exonerate package, quickly reduces perfect duplicate sequences
- cd-hit, cd-hit-est clusters protein or nucleotide sequences.
- blastn and makeblastdb of NCBI BLAST, Basic Local Alignment Search Tool, finds regions of local similarity between sequences.
#bioconda
conda install -c bioconda -y exonerate blast
http://arthropods.eugenes.org/EvidentialGene/evigene/
The best way to get〜のftpリンクからダウンロードする。
解凍してpub/evigene/scripts/prot/tr2aacds2.plを使う。
$ perl evigene/scripts/prot/tr2aacds2.pl
EvidentialGene tr2aacds.pl VERSION 2017.12.21
convert large, redundant mRNA assembly set to best protein coding sequences,
filtering by quality of duplicates, fragments, and alternate transcripts.
See http://eugenes.org/EvidentialGene/about/EvidentialGene_trassembly_pipe.html
Usage: tr2aacds.pl -mrnaseq transcripts.fasta[.gz]
opts: -MINCDS=90 -NCPU=1 -MAXMEM=1000.Mb -[no]smallclass -logfile -tidyup -dryrun -debug
ラン
de novo アセンブルツールの結果をマージしたfastaを入力とする。複数あるなら"cat *fa > merged.fa"などでコンカテネートしておく。
1、解析前にFASTAを修正する。protocol.ioにJared Mamrotさんが投稿されたDe novo transcriptome assembly workflowのワークフローを真似て、FASTAのヘッダーをシンプルな名前に修正する。
perl -ane 'if(/\>/){$a++;print ">Locus_$a\n"}else{print;}' input.fasta > renamed.fasta
#さらにformatを修正
pat.pl -output output.fa -input renamed.fasta
(trformat.pl :regularize IDs in fasta of Velvet,Soap,Trinity, ensure unique IDs, add prefixes for parameter sets.)
evigene/scripts/prot/にtr2aacds2.plはある。ラン。
perl evigene/scripts/prot/tr2aacds2.pl -mrnaseq output.fa -MINCDS=90 -NCPU=12 -logfile
okayset/のoutput.okalt.faとoutput.okay.faは同じものではなく、主要な転写配列とalternativeの転写配列になる。こちらも参考にしてください。
引用
poster
Gene-omes built from mRNA seq not genome DNA
ref1: cd-hitより効率的。
https://sourceforge.net/p/evidentialgene/discussion/general/thread/a4f0e29f/
この論文でEvidentialGeneと比較されています。