メタゲノム由来配列のインサートライブラリのアセンブリアーノテーションツール MINTIA

　地球上には、多様な生態系に適応した何兆もの細菌種が存在している。固有の代謝機能を獲得することで、多様な生態系に適応している。これらの機能を担う遺伝子の多くは未培養のバクテリアに属しており、まだ発見されていない。機能的活性スクリーニングに基づく機能的メタゲノミクスは、これらの遺伝子をマイクロバイオームから抽出する古典的な方法である。この方法は、大きなメタゲノムDNA断片をベクターに挿入して、宿主を形質転換して異種遺伝子を発現させる方法である。その後、メタゲノムライブラリーをスクリーニングし、興味のある活性を検出する。活性化したクローンのメタゲノムDNAインサートを抽出し、塩基配列を決定し、分析することで検出された活性の原因となる遺伝子を特定する。この方法で発見された数百のメタゲノム配列は、すでに公共のデータベースで公開されている。
　ここでは、バイオロジストが大規模なメタゲノム配列セットを簡単に生成・解析できるMINTIAソフトウェアパッケージを紹介する。活性ベースのスクリーニングで得られた大規模なメタゲノム配列の生成と解析を容易に行うことができる。MINTIAは、リードのフィルタリング、アセンブリの実行、クローニングベクターの除去、オープンリーディングフレームのアノテーションを行う。また、ユーザーフレンドリーなレポートを作成し、国際的な配列レポジトリに提出できるファイルを作成する。ソフトウェアパッケージはhttps://github.com/Bios4Biol/MINTIAからダウンロードできる。。

（一部省略）

活性ベースメタゲノミクスアプローチには、4つのステップが含まれる。(i) 環境サンプルから抽出したDNA断片を発現ベクター（コスミド、フォスミド、細菌人工染色体）に挿入、(ii) 微生物発現宿主を形質転換してメタゲノム・ライブラリーを作成、(iii) 選択培地を用いてクローンの表現型をスクリーニングする。(iii) 選択培地、蛍光基質またはレポーター系を用いたクローン表現型のスクリーニングにより、標的活性を産生するクローンを単離し、最後に (iv) バーコーディング後にまたは無しでNGS技術を使用してヒットクローンのmultiplexされたメタゲノムインサートをシークエンシングし、（v）スクリーニングした活性の原因遺伝子を特定するためにDNA配列を取得する。この方法を用いると、タンパク質の配列に関する事前情報がなくても、タンパク質の機能を評価することができる。

Githubより

Functional metagenomicsは、微生物の生態系でどんな生物が何をしているかを理解するために使用される。メタゲノムDNA断片をクローニングし、異種宿主で発現させたライブラリーの活性ベースのスクリーニングにより、DNA配列決定の優先順位を決定することができる。数十kbpのメタゲノム遺伝子座全体がコードする機能に直接アクセスできる大規模なインサートライブラリを使用する場合、スクリーニングされた機能を担う遺伝子を同定するためにNGSが必要となる。MINTIAは、メタゲノムインサートのアセンブルとアノテーションを行う使いやすいパイプラインである。

アセンブリーモジュール（assemble）は、各DNAインサートの最長コンティグと最多コンティグをアセンブリ、クレンジング、抽出する。リード（454, ion torrentなど）やペアエンドのリード（Illuminaなど）を処理することができる。PacBioやOxford Nanoporeのリードは処理できない。300X read coverage をデフォルトでサブ選択し、アセンブルし、クローニングベクターを除去し、最適なコンティグを選択する。長さと平均デプスが指定された閾値を超えるコンティグのみが保持される。作成されるHTMLレポートには、各サンプルのコンティグの長さとカバレッジを示すダイナミックグラフィックが含まれる。

アノテーションモジュール（annotate）は、主要な遺伝子機能と機能分類を得ることを目的としている。パイプラインは、少なくともORF検出のためにprokkaを使い、遺伝子とタンパク質のFastaファイル、およびORFの説明を含む表形式ファイルを生成する。選択されたオプションに応じて、コンティグとORFはNCBI NR (Non Redundant) だけでなく、SP (SwissProt) とCOGssデータベースに対してアライメントされる。作成されたHTMLレポートには、すべての結果が含まれ、埋め込み可能なインタラクティブなゲノム可視化コンポーネントであるigv.jsに基づいてアノテーションを探索することができる。

インストール

ubuntu18.04にsetupスクリプトを使って導入した（condaの仮想環境が作成される）。

Github

git clone --recursive https://github.com/Bios4Biol/MINTIA.git
cd MINTIA
./setup.sh #16行目のcondaをmambaに書き換えてから実行した
conda activate mintia

#2依存2つはcondaによってインストールされないので手動でインストールする
#1 crossmatch
mamba install -c jhkennedy r-crossmatch -y

#2 MEGAN5(link) linux
mamba install -c bioconda megan -y

> ./mintia

Name:

mintia - Fosmid assembly and annotation pipeline.

Commands:

check - step 0 to check the dependencies

assemble - step 1 to assemble raw reads...

annotate - step 2 to annotate filtered and cleaned scaffold(s)

Description:

Step 0: check the dependencies

Step 1: assembles raw reads, looks for and removes the cloning vector, and

extracts the longest and the most covered contigs. It has been build to handle

two types of raw reads as inputs: single (454, ion torrent reads, ...) or

paired (Illumina,...) reads.

This tools is not able to process PacBio or Oxford Nanopore reads.

Step 2: annotate filtered and cleaned scaffold(s) provided by the step 1.

Main Options:

--version

Print version

-h, --help

Print help

Version:

Mintia_v1.0

Authors:

Philippe Bardou - INRAE Toulouse - support.sigenae@inra.fr

Christophe Klopp - INRAE Toulouse

Sandrine Laguerre - INRAE Toulouse

Sarah Maman - INRAE Toulouse

Sabrina Rodriguez - INRAE Toulouse

2020 INRAE

# Install check

> mintia check

データベース

wget ftp://ftp.ncbi.nih.gov/pub/mmdb/cdd//cdd.tar.gz
tar -xvzf cdd.tar.gz
makeprofiledb -title COG.3-28-17 -in Cog.pn -out Cog.v3-28-17 -threshold 9.82 -scale 100.0 -dbtype rps -index true

テストラン

mintia assemble -t 1 -i Data/Input/Assemble/BifidoAdolescentis.s*gz -v Data/Input/Assemble/pCC1FOS.fasta -len 40000 -c 300 -d Data/Output/Assemble/

以前は出来た記憶があるのですが、crossmatchの導入に失敗しました。手順を思い出したら追記します。

引用

MINTIA: a metagenomic INserT integrated assembly and annotation tool

Philippe Bardou, Sandrine Laguerre, Sarah Maman Haddad, Sabrina Legoueix Rodriguez, Elisabeth Laville, Claire Dumon, Gabrielle Potocki-Veronese, Christophe Klopp

PeerJ. 2021; 9: e11885. Published online 2021 Sep 27