窒素(N)サイクルは、地球生態系における重要な生物地球化学的経路の集合体であり、生態学や環境学の分野で広く注目されている。現在、ショットガンメタゲノムシーケンスは、窒素サイクルプロセスを担う遺伝子ファミリーの探索に広く応用されていまる。しかし、一般に公開されているオーソロジーデータベースを用いてショットガンメタゲノム中のNサイクル遺伝子ファミリーを探索するには、データベース検索の非効率性、オーソロジーグループの非特異性、Nサイクル遺伝子や遺伝子(サブ)ファミリーのカバー率の低さといった問題がある。
これらの問題を解決するために、本研究では、ショットガンメタゲノムデータからNサイクル遺伝子(サブ)ファミリーを高速かつ正確にプロファイリングするために、手動でキュレーションした統合データベース(NCycDB)を構築した。NCycDBは合計68の遺伝子(サブ)ファミリーを含み、8つのNサイクルプロセスをカバーし、95および100%同一性のカットオフでそれぞれ84 759および219 146の代表配列が含まれている。また、「データベースが小さい」という問題による誤判定を避けるため、1958の相同性オーソロググループを特定し、対応する配列をデータベースに収録した。NCycDBを応用して、Global Ocean Sampling expeditionから得られた52個のショットガンメタゲノム中のNサイクル遺伝子(サブ)ファミリーの特徴を明らかにした。さらに解析の結果、Nサイクル遺伝子ファミリーの構造と構成は、緯度および温度と最も強い相関があることが示された。NCycDBは、様々な環境下でのショットガンメタゲノムシーケンスによるNサイクルの研究を促進することが期待される。また、本研究で開発したフレームワークは、様々なプロセスやパスウェイにおける同様の知識ベースの機能遺伝子データベースを構築するための良い参考資料となることが期待される。NCycDBデータベースファイルは、https://github.com/qichao1984/NCyc で公開されている。
Githubより
ここでは、NCyc遺伝子ファミリーのタンパク質配列をUniProt、KEGG、COG、eggNOG、the SEEDなどの複数の公開データベースから収集した。NCycデータベースは、合計68の遺伝子(サブ)ファミリーを含み、8つのNサイクルプロセスをカバーし、95%および100%の同一性カットオフでそれぞれ84,759および219,146の代表配列がある。また、「データベースが小さい」という問題による誤判定を避けるため、1,958の相同オーソログループを同定し、対応する配列をデータベースに収録している。NCycでは3つのファイルが生成されます。
- NCyc_100.faa.gz:キュレーションした配列を100%配列同一性でクラスタリングして得られたFasta形式の代表配列。このファイルは、ショットガンメタゲノム中のNCyc遺伝子を "BLAST "で検索する際に利用できる。
- NCyc_95.faa.gz: 95%配列同一性のキュレーションされた配列をクラスタリングして得られたFasta形式の代表的な塩基配列。ショットガンメタゲノム中のNCyc遺伝子を "BLAST "検索する際に利用可能なファイル。
- id2gene.map:配列IDと遺伝子名を対応付けたマッピングファイルで、NCyc遺伝子ファミリーに属する配列のみが含まれる。NCyc遺伝子ファミリーに属する配列のみが含まれる。NCycホモログの配列は含まれない。このファイルは、NCycデータベースに対するBLASTのような結果からNCycプロファイルを生成するために使用される。
NCyc_100_2019Julについて
インストール
#blastのインストール。旧BLAST;レガシーBLASTパッケージが必要。
mamba create -n blast-legacy -y
conda actyivate blast-legacy
mamba install -c bioconda blast-legacy
* DIAMONDやusearchにも対応してます
git clone https://github.com/qichao1984/NCyc.git
cd NCyc/
> perl NCycProfiler.PL
perl NCycProfiler.pl -d <workdir> -m <diamond|usearch|blast> -f <filetype> -s <seqtype> -si <sample size info file> -rs <random sampling size> -o <outfile>
-m diamond|usearch|blast
-f fastq, fastq.gz, fasta,fasta.gz, fq, fq.gz, fa, fa.gz
-s sequence type, nucl or prot
-si tab delimited file for sequence number in each file
-rs random sampling size
Died at NCycProfiler.PL line 35.
cd NCyc/
perl NCycProfiler.pl -d <workdir> -m <diamond|usearch|blast> -f <filetype> -s <seqtype> -si <sample size info file> -rs <random sampling size> -o <outfile>
試したのですが正常にランできませんでした。Githubではいくつかバグが報告されており、手動でBLASTした方が良いかもしれません。
Output file not detected · Issue #12 · qichao1984/NCyc · GitHub
あと、キューレーションが不十分で機能が異なるタンパク質が混ざっている例があるようです。注意して下さい。
引用
NCycDB: a curated integrative database for fast and accurate metagenomic profiling of nitrogen cycling genes
Qichao Tu, Lu Lin, Lei Cheng, Ye Deng, Zhili He
Bioinformatics. 2019 Mar 15;35(6):1040-1048