鉄は地球上のほぼすべての生命にとっての微量栄養素である。鉄は、鉄酸化および鉄還元微生物による電子供与体および電子受容体として使用でき、光合成および呼吸を含むさまざまな生物学的プロセスで使用される。鉄は地球の地殻で4番目に豊富な金属だが、鉄は酸化されて沈殿しやすいため、酸素環境での成長では利用がよく制限される。微生物がどのように鉄を奪い、利用するかについての我々の理解の多くは、実験室の実験に基づいている。しかし、次世代シーケンシングの出現と公的に利用可能なシーケンスデータの急増により、環境内の微生物群集の構造と機能を調査することが可能になった。モデル微生物における鉄の獲得、鉄のレドックスサイクリング、鉄の貯蔵、マグネトソームの形成の理解と環境研究から得られる大量のシーケンスデータとの間のギャップを埋めるために、本著者らは細菌および古細菌における鉄の獲得、貯蔵、および還元/酸化に関連する遺伝子のデータベースとともに、FeGenieを紹介する。FeGenieは、ゲノムおよびメタゲノムアセンブリを入力として受け入れ、包括的なHMMデータベースを使用して、鉄関連遺伝子および遺伝子近傍に関して提供されたデータセットにアノテーションを付ける。このツールの重要な貢献は、鉄の酸化と異化的な鉄の還元に関与する遺伝子の効率的な同定であり、標準的なアノテーションパイプラインではほとんど見落とされてきた。 28の選択された単離ゲノムのセットを使ってFeGenieを検証し、27のメタゲノムに存在する鉄遺伝子、ヒト口腔バイオフィルムからの4つの分離ゲノム、および候補放射線のメンバーを含む候補生物からの17のゲノムの探索におけるその有用性を示す。 FeGenieが分離株の鉄遺伝子を正確に識別することを示す。さらに、FeGenieを使用したメタゲノムの分析では、各環境の鉄遺伝子レパートリーと豊富さが鉄の豊富さと相関していることが示されている。このツールは、微生物生理学の培養依存分析の信頼性に代わるものではないが、最新の遺伝子マーカーに由来する信頼性の高い予測を提供する。 FeGenieのデータベースは維持され、新しい遺伝子が発見されるたびに継続的に更新される。
https://github.com/Arkadiy-Garber/FeGenie/wiki
Tutorial
Tutorial · Arkadiy-Garber/FeGenie Wiki · GitHub
Very happy to share that FeGenie has been published!https://t.co/SCCyXGXZ0E
— Arkadiy Garber (@bioinfoark) 2020年1月31日
Mega-thanks to all my co-authors for helping to make this happen @FeHydro, @NovelMicrobes, @microbestalker, @kenealson, @Akihiro_Okamoto, and Nancy Merino (who is not on twitter)
New Research: FeGenie: A Comprehensive Tool for the Identification of Iron Genes and Iron Gene Neighborhoods in Genome and Metagenome Assemblies https://t.co/V9MaS9qJl9 #microbiology
— Frontiers Microbiol (@FrontMicrobiol) 2020年2月2日
インストール
git clone https://github.com/Arkadiy-Garber/FeGenie.git
cd FeGenie
bash setup.sh
conda activate fegenie
#結果を視覚化するならRとライブラリも必要
> install.packages("tidyverse")
> install.packages("reshape")
> install.packages("reshape2")
> install.packages("argparse")
> install.packages("ggdendro")
> install.packages("ggpubr")
> install.packages("grid")
> install.packages("pvclust")
> python FeGenie.py -h
# FeGenie.py -h
usage: FeGenie.py [-h] [-bin_dir BIN_DIR] [-bin_ext BIN_EXT] [-d D] [-ref REF]
[-out OUT] [-inflation INFLATION] [-t T] [--gbk [GBK]]
[--orfs [ORFS]] [--meta [META]] [--norm [NORM]]
[--makeplots [MAKEPLOTS]]
*******************************************************
Developed by Arkadiy Garber and Nancy Merino;
University of Southern California, Earth Sciences
Please send comments and inquiries to arkadiyg@usc.edu
)`-.--. )\.---. )\.-. )\.---. )\ )\ .'( )\.---.
) ,-._( ( ,-._( ,' ,-,_) ( ,-._( ( \, / \ ) ( ,-._(
\ `-._ \ '-, ( . __ \ '-, ) \ ( ) ( \ '-,
) ,_( ) ,-` ) '._\ _) ) ,-` ( ( \ \ \ ) ) ,-`
( \ ( ``-. ( , ( ( ``-. `.)/ ) ) \ ( ``-.
).' )..-.( )/'._.' )..-.( '.( )/ )..-.(
%(?/////////&//%
.,,. (%((&@@@#/*. .,,.
.,,. @(((/&@@@#///** ...
#&((///////////////*/@
#*@.
() * )//*
<^^> * (/* .
.-""-. *)
.---. ."-....-"-._ _...---''`/. '
( (`\ \ .' ``-'' _.-"'`
\ \ \ : :. .-'
`\`.\: `:. _.'
( .'`.` _.'
`` `-..______.-'
):. (
."-....-".
.':. `.
"-..______..-"
Image design: Nancy Merino (2018);
ASCII art: https://manytools.org/hacker-tools/convert-images-to-ascii-art/
*******************************************************
optional arguments:
-h, --help show this help message and exit
-bin_dir BIN_DIR directory of bins
-bin_ext BIN_EXT extension for bins (do not include the period)
-d D maximum distance between genes to be considered in a
genomic 'cluster'.This number should be an integer and
should reflect the maximum number of genes in between
putative iron-related genes identified by the HMM
database (default=5)
-ref REF path to a reference protein database, which must be in
FASTA format
-out OUT name output directory (default=fegenie_out)
-inflation INFLATION inflation factor for final gene category counts
(default=1000)
-t T number of threads to use for DIAMOND BLAST and
HMMSEARCH (default=1, max=16)
--gbk [GBK] include this flag if your bins are in Genbank format
--orfs [ORFS] include this flag if you are providing bins as open-
reading frames or genes in FASTA amino-acid format
--meta [META] include this flag if the provided contigs are from
metagenomic/metatranscriptomic assemblies
--norm [NORM] include this flag if you would like the gene counts
for each iron gene category to be normalized to the
number of predicted ORFs in each genome or metagenome.
Without normalization, FeGenie will create a heatmap-
compatible CSV output with raw gene counts. With
normalization, FeGenie will create a heatmap-
compatible with 'normalized gene abundances'
--makeplots [MAKEPLOTS]
include this flag if you would like FeGenie to make
some figures from your data?. To take advantage of
this part of the pipeline, you will need to have
Rscipt installed. It is a way for R to be called
directly from the command line. Please be sure to
install all the required R packages as instrcuted in
the FeGenie Wiki: https://github.com/Arkadiy-
Garber/FeGenie/wiki/Installation. If you see error or
warning messages associated with Rscript, you can
still expect to see the main output (CSV files) from
FeGenie.
自分用dockerイメージ。色々入れているので3.7GBほどあります。(ヒートマップも出力できるがまだhclust関係でエラーあり)
docker pull kazumax/fegenie
docker run --rm -itv $pwd:/data -w /root/FeGenie kazumax/fegenie
> python FeGenie.py -h
テストラン
bash test_run_conda.sh
"FeGenie.py -bin_dir test_dataset -bin_ext txt -out fegenie_out"が実行される。
実行方法
binningされたアセンブリ配列のFASTAファイルを含むディレクトリを指定する。metagenome/metatranscriptomic由来配列を使っているなら"--meta"をつける。
python FeGenie.py -bin_dir genome_dir/ -bin_ext fasta -t 12 -out output_fegenie
NZ_AP014712.1_1095
NZ_AP014712.1_375
NZ_AP014712.1_976
Clustering ORFs...
.
.
Looking for Thermincola S-layer cytochromes and Geobacter porin-cytochromes
Pipeline finished without crashing!!! Thanks for using :)
出力
FeGenie-geneSummary.csv
FeGenie-geneSummary-clusters.csv
Fegenie-dotplot.tiff
既にアノテーション付けしてGenBankを作っているなら、bin_dir/に.gbkをコピーし、ラン時に”--gbk”をつけて実行する。
python FeGenie.py -bin_dir bin_dir/ -bin_ext fasta -t 12 -out output_fegenie --gbk
引用
FeGenie: A Comprehensive Tool for the Identification of Iron Genes and Iron Gene Neighborhoods in Genome and Metagenome Assemblies
Arkadiy I. Garber, Kenneth H. Nealson, Akihiro Okamoto, Sean M. McAllister, Clara S. Chan, Roman A. Barco and Nancy Merino
Front. Microbiol., 31 January 2020
*1
Rのバージョンが古くてtidyverseが導入できなかったため、こちらを参考にしてR3.6.1を導入した。