macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノム情報も利用するメタトランスクリプトームアセンブラ MetaGT

 

 メタゲノムシーケンスは、微生物コミュニティのゲノム配列と構成に関する洞察を提供することができるが、メタトランスクリプトーム解析は、微生物コミュニティの機能的活性を研究するために有用であると考えられる。RNA-Seqデータは、コミュニティ内の活性な遺伝子と、その発現レベルが外部条件にどのように依存するかを決定する可能性を提供する。メタトランスクリプトミクスの分野は比較的新しいが、メタトランスクリプトーム解析に関連するプロジェクトは年々増加し、その応用範囲も広がっている。しかし、メタトランススクリプトーム解析を複雑にしているいくつかの問題がある。微生物コミュニティの複雑さ、トランスクリプトーム発現の広いダイナミックレンジ、そして重要なことは、メタRNAシーケンスデータを組み立てるための高品質の計算機手法がないことである。これらの要因は、メタトランスクリプトームアセンブリの連続性と完全性を悪化させ、その結果、さらなるダウンストリーム解析に影響を及ぼす。本発表では、メタトランスクリプトームのde novoアセンブリのためのパイプラインであるMetaGTを紹介する。これは、同じサンプルからシーケンスされたメタトランスクリプトームとメタゲノム両方のデータを組み合わせるというアイデアに基づいている。MetaGTはメタトランスクリプトームコンティグをアセンブルし、メタゲノムとのアラインメントに基づいて欠損領域を埋める。このアプローチにより、複雑な構造を克服し、完全なRNA配列を得ることができ、さらにその存在量も推定することができる。MetaGTは、メタゲノム情報を利用しない既存の手法と比較して、メタトランススクリプトームアセンブリカバレッジと完全性が大幅に向上することを、一般に公開されている様々な実データやシミュレーションデータを用いて実証している。このパイプラインはNextFlowで実装されており、https://github.com/ablab/metaGT から自由に利用することができる。

 

 

インストール

依存

  • Nextflowの20.04以上

Github

#test run
nextflow run metaGT -profile test,conda


#ここではレポジトリをcloneする
git clone https://github.com/ablab/metaGT.git
cd metaGT/
#依存するツールをmambaでインストール(打たなくてもラン開始時に自動導入されるが、condaだと時間がかかる)
mamba env create --file environment.yml
nextflow run main.nf -profile test,conda

#環境構築に失敗したので、以前作ったprokkaの仮想環境をアクティブにして、prokka以外の依存するツールとライブラリを追加導入した。
conda activate my_prokka_env
mamba install -c conda-forge -c bioconda -c defaults pysam mmseqs2 kallisto samtools transdecoder yaml minimap2

 

 

実行方法

cd metaGT/
nextflow run main.nf -profile test

エラーが起きる。logを見る限りindexingのステップで失敗している。

 

引用

MetaGT: A pipeline for de novo assembly of metatranscriptomes with the aid of metagenomic data
Daria Shafranskaya 1, Varsha Kale 2, Rob Finn 2, Alla L Lapidus 1, Anton Korobeynikov 1, Andrey D Prjibelski

Front Microbiol. 2022 Oct 28;13:981458