2024/04/06 論文追記
トランスポーザブル・エレメント(TE)は、ほぼ全ての真核生物ゲノムに存在し、様々な進化過程に関与している。TEに関する研究は非常に盛んだが、そのアノテーションと特性解析は、特に非専門家にとって依然として困難である。(i)断片的で重複するTEアノテーションは、TE数およびカバレッジの誤った推定につながる可能性がある。(ii)リピートモデルは、5'および3'領域の捕捉が不十分で、全長の小さな割合しか表さないことがある。また、既存のパイプラインは、インストール、実行、データの抽出が困難な場合がある。これらの問題を解決するために、本著者らはEarl Greyを開発した。このパイプラインは、真核生物のゲノムアセンブリに含まれるTEのキュレーションとアノテーションをユーザーフレンドリーな形で行うために設計された全自動トランスポーザブル・エレメント・アノテーション・パイプラインである。
シミュレーションゲノム、3つのモデルゲノムアセンブリ、3つの非モデルゲノムアセンブリを用いた結果、Earl Greyは、現在広く用いられているTEアノテーション手法よりも優れており、非冗長化TEライブラリでより長いTEコンセンサス配列を生成し、それを用いて重複のない断片的なTEアノテーションを生成することにより、上記の問題を改善することができた。Earl Greyは、TEアノテーションのベンチマーク(MCC:0.99)および分類(97%の正解率)において、既存のソフトウェアと比較して高いスコアを獲得した。
Earl Greyは、包括的かつ完全に自動化されたTEアノテーションツールキットであり、他のバイオインフォマティクスツールと互換性のある標準フォーマットで、研究者に論文用の要約図とアウトプットを提供する。Earl Greyはモジュール式であり、今後のリリースにおいて、品質管理面や独自の解析に特化したモジュールを追加することが可能である。
インストール
ubuntu20にて、依存を導入後インストールした。apple silicon Macへの導入方法も説明されている。
git clone https://github.com/TobyBaril/EarlGrey
cd ./EarlGrey
mamba env create -f earlGrey.yml
conda activate earlGrey
./configure #*1
chmod +x ./earlGrey
#conda
mamba create -n earlgrey -c conda-forge -c bioconda earlgrey -y
#docker
docker run -it -v `pwd`/host_data/:/data/ quay.io/biocontainers/earlgrey:4.1.0--h4ac6f70_0
> ./earlGrey
____________________
< Checking Parameters >
--------------------
\ ^__^
\ (oo)\_______
(__)\ )\/
||----w |
|| ||
#############################
earlGrey
Required Parameters:
-g == genome.fasta
-s == species name
-o == output directory
-r == RepeatMasker search term (e.g arthropoda/eukarya)
Optional Parameters:
-t == Number of Threads (DO NOT specify more than are available)
-l == Repbase species subset library (FASTA format)
-i == Number of Iterations to BLAST, Extract, Extend - Only enter a number between 5 and 10 (Iteration outputs are 0-based!) (Default: 5)
-f == Number flanking basepairs to extract (Default: 1000)
-d == Maximum non-TE distance between annotations to consider a pair to be from the same cluster (100 is recommended)
-h == Show help
Example Usage:
earlGrey -g bombyxMori.fasta -s bombyxMori -o /home/toby/bombyxMori/repeatAnnotation/ -r arthropoda -t 16
Prerequisites - These must be configured prior to using Earl Grey:
- RepeatMasker (Version 4.1.2) - RepeatModeler (version 2.0.2) Ensure you have run the ./configure script from the earlGrey installation directory
Ensure RepeatMasker has been configured with the desired repeat libraries (RepBase and Dfam 3.2 are recommended)
Queries can be sent to:
tb529@exeter.ac.uk
Please make use of the GitHub Issues and Discussion Tabs at: https://github.com/TobyBaril/EarlGrey
#############################
実行方法
ゲノム配列を指定する。
earlGrey -g genome.fasta -s species_name -o repeatAnnotation/ -r arthropoda -t 16
- -s species name
- -r RepeatMasker search term (e.g arthropoda/eukarya)
- -g genome.fasta
- -o output directory
- 最も重要な結果はsummaryFiles/に保存される。中間結果も手動でキュレーションや調査を行う事に備えて保持される(各ファイルについてはレポジトリで説明されている)。
引用
Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline
Tobias Baril, Ryan M. Imrie, Alex Hayward
bioRxiv, Posted July 02, 2022
Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline
Tobias Baril, James Galbraith, Alex Hayward
Molecular Biology and Evolution, Published: 05 April 2024
関連
*1
mamba install -c bioconda repeatmasker -y
mamba install -c bioconda repeatmodeler -y