macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

全自動のトランスポーザブル・エレメントのアノテーションと解析のパイプライン Earl Grey

2024/04/06 論文追記

 

 トランスポーザブル・エレメント(TE)は、ほぼ全ての真核生物ゲノムに存在し、様々な進化過程に関与している。TEに関する研究は非常に盛んだが、そのアノテーションと特性解析は、特に非専門家にとって依然として困難である。(i)断片的で重複するTEアノテーションは、TE数およびカバレッジの誤った推定につながる可能性がある。(ii)リピートモデルは、5'および3'領域の捕捉が不十分で、全長の小さな割合しか表さないことがある。また、既存のパイプラインは、インストール、実行、データの抽出が困難な場合がある。これらの問題を解決するために、本著者らはEarl Greyを開発した。このパイプラインは、真核生物のゲノムアセンブリに含まれるTEのキュレーションとアノテーションをユーザーフレンドリーな形で行うために設計された全自動トランスポーザブル・エレメント・アノテーション・パイプラインである。

 シミュレーションゲノム、3つのモデルゲノムアセンブリ、3つの非モデルゲノムアセンブリを用いた結果、Earl Greyは、現在広く用いられているTEアノテーション手法よりも優れており、非冗長化TEライブラリでより長いTEコンセンサス配列を生成し、それを用いて重複のない断片的なTEアノテーションを生成することにより、上記の問題を改善することができた。Earl Greyは、TEアノテーションベンチマーク(MCC:0.99)および分類(97%の正解率)において、既存のソフトウェアと比較して高いスコアを獲得した。
 Earl Greyは、包括的かつ完全に自動化されたTEアノテーションツールキットであり、他のバイオインフォマティクスツールと互換性のある標準フォーマットで、研究者に論文用の要約図とアウトプットを提供する。Earl Greyはモジュール式であり、今後のリリースにおいて、品質管理面や独自の解析に特化したモジュールを追加することが可能である。

 

インストール

ubuntu20にて、依存を導入後インストールした。apple silicon Macへの導入方法も説明されている。

Github

git clone https://github.com/TobyBaril/EarlGrey
cd ./EarlGrey
mamba env create -f earlGrey.yml
conda activate earlGrey
./configure #*1
chmod +x ./earlGrey

#conda
mamba create -n earlgrey -c conda-forge -c bioconda earlgrey -y

#docker
docker run -it -v `pwd`/host_data/:/data/ quay.io/biocontainers/earlgrey:4.1.0--h4ac6f70_0

> ./earlGrey 

____________________

< Checking Parameters >

 --------------------

        \   ^__^

         \  (oo)\_______

            (__)\       )\/                

                ||----w |

                ||     ||

    #############################

    earlGrey

    Required Parameters:

        -g == genome.fasta

        -s == species name

        -o == output directory

        -r == RepeatMasker search term (e.g arthropoda/eukarya)

 

    Optional Parameters:

        -t == Number of Threads (DO NOT specify more than are available)

        -l == Repbase species subset library (FASTA format)

        -i == Number of Iterations to BLAST, Extract, Extend - Only enter a number between 5 and 10 (Iteration outputs are 0-based!) (Default: 5)

        -f == Number flanking basepairs to extract (Default: 1000)

        -d == Maximum non-TE distance between annotations to consider a pair to be from the same cluster (100 is recommended)

    -h == Show help

 

    Example Usage:

 

    earlGrey -g bombyxMori.fasta -s bombyxMori -o /home/toby/bombyxMori/repeatAnnotation/ -r arthropoda -t 16

 

 

    Prerequisites - These must be configured prior to using Earl Grey:

        - RepeatMasker (Version 4.1.2)                                                                                                                                                                                                               - RepeatModeler (version 2.0.2)                                                                                                                                                                                                                                                                                                                                                                                                                                                       Ensure you have run the ./configure script from the earlGrey installation directory

    Ensure RepeatMasker has been configured with the desired repeat libraries (RepBase and Dfam 3.2 are recommended)

 

    Queries can be sent to:

    tb529@exeter.ac.uk

 

    Please make use of the GitHub Issues and Discussion Tabs at: https://github.com/TobyBaril/EarlGrey

    #############################

 

 

実行方法

ゲノム配列を指定する。

earlGrey -g genome.fasta -s species_name -o repeatAnnotation/ -r arthropoda -t 16
  • -s    species name
  • -r    RepeatMasker search term (e.g arthropoda/eukarya)
  • -g   genome.fasta
  • -o   output directory

 

  • 最も重要な結果はsummaryFiles/に保存される。中間結果も手動でキュレーションや調査を行う事に備えて保持される(各ファイルについてはレポジトリで説明されている)。

引用

Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline
Tobias Baril,  Ryan M. Imrie,  Alex Hayward

bioRxiv, Posted July 02, 2022

 

Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline 
Tobias Baril,   James Galbraith,   Alex Hayward

Molecular Biology and Evolution, Published: 05 April 2024

 

関連


*1

mamba install -c bioconda repeatmasker -y

mamba install -c bioconda repeatmodeler -y