macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

(metagenomeのbinned.faから)鉄関連の遺伝子を探す FeGenie

 

 鉄は地球上のほぼすべての生命にとっての微量栄養素である。鉄は、鉄酸化および鉄還元微生物による電子供与体および電子受容体として使用でき、光合成および呼吸を含むさまざまな生物学的プロセスで使用される。鉄は地球の地殻で4番目に豊富な金属だが、鉄は酸化されて沈殿しやすいため、酸素環境での成長では利用がよく制限される。微生物がどのように鉄を奪い、利用するかについての我々の理解の多くは、実験室の実験に基づいている。しかし、次世代シーケンシングの出現と公的に利用可能なシーケンスデータの急増により、環境内の微生物群集の構造と機能を調査することが可能になった。モデル微生物における鉄の獲得、鉄のレドックスサイクリング、鉄の貯蔵、マグネトソームの形成の理解と環境研究から得られる大量のシーケンスデータとの間のギャップを埋めるために、本著者らは細菌および古細菌における鉄の獲得、貯蔵、および還元/酸化に関連する遺伝子のデータベースとともに、FeGenieを紹介する。FeGenieは、ゲノムおよびメタゲノムアセンブリを入力として受け入れ、包括的なHMMデータベースを使用して、鉄関連遺伝子および遺伝子近傍に関して提供されたデータセットアノテーションを付ける。このツールの重要な貢献は、鉄の酸化と異化的な鉄の還元に関与する遺伝子の効率的な同定であり、標準的なアノテーションパイプラインではほとんど見落とされてきた。 28の選択された単離ゲノムのセットを使ってFeGenieを検証し、27のメタゲノムに存在する鉄遺伝子、ヒト口腔バイオフィルムからの4つの分離ゲノム、および候補放射線のメンバーを含む候補生物からの17のゲノムの探索におけるその有用性を示す。 FeGenieが分離株の鉄遺伝子を正確に識別することを示す。さらに、FeGenieを使用したメタゲノムの分析では、各環境の鉄遺伝子レパートリーと豊富さが鉄の豊富さと相関していることが示されている。このツールは、微生物生理学の培養依存分析の信頼性に代わるものではないが、最新の遺伝子マーカーに由来する信頼性の高い予測を提供する。 FeGenieのデータベースは維持され、新しい遺伝子が発見されるたびに継続的に更新される。

 

wiki

https://github.com/Arkadiy-Garber/FeGenie/wiki

Tutorial

Tutorial · Arkadiy-Garber/FeGenie Wiki · GitHub

 

 

インストール

本体 Github

git clone https://github.com/Arkadiy-Garber/FeGenie.git
cd FeGenie
bash setup.sh
conda activate fegenie

#結果を視覚化するならRとライブラリも必要
> install.packages("tidyverse")
> install.packages("reshape")
> install.packages("reshape2")
> install.packages("argparse")
> install.packages("ggdendro")
> install.packages("ggpubr")
> install.packages("grid")
> install.packages("pvclust")

> python FeGenie.py -h

# FeGenie.py -h

usage: FeGenie.py [-h] [-bin_dir BIN_DIR] [-bin_ext BIN_EXT] [-d D] [-ref REF]

                  [-out OUT] [-inflation INFLATION] [-t T] [--gbk [GBK]]

                  [--orfs [ORFS]] [--meta [META]] [--norm [NORM]]

                  [--makeplots [MAKEPLOTS]]

 

*******************************************************

 

Developed by Arkadiy Garber and Nancy Merino;

University of Southern California, Earth Sciences

Please send comments and inquiries to arkadiyg@usc.edu

 

    )`-.--.  )\.---.     )\.-.    )\.---.   )\  )\  .'(   )\.---.  

    ) ,-._( (   ,-._(  ,' ,-,_)  (   ,-._( (  \, /  \  ) (   ,-._( 

    \ `-._   \  '-,   (  .   __   \  '-,    ) \ (   ) (   \  '-,   

     ) ,_(    ) ,-`    ) '._\ _)   ) ,-`   ( ( \ \  \  )   ) ,-`   

    (  \     (  ``-.  (  ,   (    (  ``-.   `.)/  )  ) \  (  ``-.  

     ).'      )..-.(   )/'._.'     )..-.(      '.(    )/   )..-.(                                                                                    

                          %(?/////////&//%                                                

      .,,.                   (%((&@@@#/*.                      .,,.        

      .,,.                     @(((/&@@@#///**                  ...        

                                 #&((///////////////*/@                                

                                                     #*@.                             

                              ()                   * )//*

                              <^^>             *     (/*   .

                             .-""-.                  *)

                  .---.    ."-....-"-._     _...---''`/. '

                 ( (`\ \ .'            ``-''    _.-"'`

                  \ \ \ : :.                 .-'

                   `\`.\: `:.             _.'

                   (  .'`.`            _.'

                    ``    `-..______.-'

                              ):.  (

                            ."-....-".

                          .':.        `.

                          "-..______..-"

 

Image design: Nancy Merino (2018);

ASCII art: https://manytools.org/hacker-tools/convert-images-to-ascii-art/                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       

*******************************************************

 

optional arguments:

  -h, --help            show this help message and exit

  -bin_dir BIN_DIR      directory of bins

  -bin_ext BIN_EXT      extension for bins (do not include the period)

  -d D                  maximum distance between genes to be considered in a

                        genomic 'cluster'.This number should be an integer and

                        should reflect the maximum number of genes in between

                        putative iron-related genes identified by the HMM

                        database (default=5)

  -ref REF              path to a reference protein database, which must be in

                        FASTA format

  -out OUT              name output directory (default=fegenie_out)

  -inflation INFLATION  inflation factor for final gene category counts

                        (default=1000)

  -t T                  number of threads to use for DIAMOND BLAST and

                        HMMSEARCH (default=1, max=16)

  --gbk [GBK]           include this flag if your bins are in Genbank format

  --orfs [ORFS]         include this flag if you are providing bins as open-

                        reading frames or genes in FASTA amino-acid format

  --meta [META]         include this flag if the provided contigs are from

                        metagenomic/metatranscriptomic assemblies

  --norm [NORM]         include this flag if you would like the gene counts

                        for each iron gene category to be normalized to the

                        number of predicted ORFs in each genome or metagenome.

                        Without normalization, FeGenie will create a heatmap-

                        compatible CSV output with raw gene counts. With

                        normalization, FeGenie will create a heatmap-

                        compatible with 'normalized gene abundances'

  --makeplots [MAKEPLOTS]

                        include this flag if you would like FeGenie to make

                        some figures from your data?. To take advantage of

                        this part of the pipeline, you will need to have

                        Rscipt installed. It is a way for R to be called

                        directly from the command line. Please be sure to

                        install all the required R packages as instrcuted in

                        the FeGenie Wiki: https://github.com/Arkadiy-

                        Garber/FeGenie/wiki/Installation. If you see error or

                        warning messages associated with Rscript, you can

                        still expect to see the main output (CSV files) from

                        FeGenie.

 自分用dockerイメージ。色々入れているので3.7GBほどあります。(ヒートマップも出力できるがまだhclust関係でエラーあり)

docker pull kazumax/fegenie
docker run --rm -itv $pwd:/data -w /root/FeGenie kazumax/fegenie
> python FeGenie.py -h

 

 

テストラン

bash test_run_conda.sh 

 

"FeGenie.py -bin_dir test_dataset -bin_ext txt -out fegenie_out"が実行される。

 

実行方法

 binningされたアセンブリ配列のFASTAファイルを含むディレクトリを指定する。metagenome/metatranscriptomic由来配列を使っているなら"--meta"をつける。

python FeGenie.py -bin_dir genome_dir/ -bin_ext fasta -t 12 -out output_fegenie

NZ_AP014712.1_1095

NZ_AP014712.1_375

NZ_AP014712.1_976

Clustering ORFs...

 

.

.

Looking for Thermincola S-layer cytochromes and Geobacter porin-cytochromes

 

Pipeline finished without crashing!!! Thanks for using :)

出力

f:id:kazumaxneo:20200223155104p:plain

FeGenie-geneSummary.csv

f:id:kazumaxneo:20200223155235p:plain

FeGenie-geneSummary-clusters.csv

f:id:kazumaxneo:20200223155305p:plain

Fegenie-dotplot.tiff

f:id:kazumaxneo:20200223182247p:plain


 

既にアノテーション付けしてGenBankを作っているなら、bin_dir/に.gbkをコピーし、ラン時に”--gbk”をつけて実行する。

python FeGenie.py -bin_dir bin_dir/ -bin_ext fasta -t 12 -out output_fegenie --gbk

 

引用

FeGenie: A Comprehensive Tool for the Identification of Iron Genes and Iron Gene Neighborhoods in Genome and Metagenome Assemblies

Arkadiy I. Garber, Kenneth H. Nealson, Akihiro Okamoto, Sean M. McAllister, Clara S. Chan, Roman A. Barco and Nancy Merino

Front. Microbiol., 31 January 2020

 

*1

Rのバージョンが古くてtidyverseが導入できなかったため、こちらを参考にしてR3.6.1を導入した。