macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムのOTU解析を行う singleM

2024/02/01 論文引用

 

Githubより

 SingleMは、参照配列データベースに過度に依存することなく、ショットガンメタゲノムデータから直接、個別の操作的分類単位(OTU)の存在量を求めるツールである。このツールは、近縁の生物種を区別することができ、その生物種が科学的に新しい系統のものであっても区別することができる。GraftMでは、ある特定の分類群に属する群集の割合など、分類学的な概観を得ることができるが、SingleMでは、トリミングされていない生のメタゲノムリードから配列ベースのOTUを見つけることができる。現在、SingleMは14のシングルコピー・マーカー遺伝子に集中しており、16S解析の障害となるコピー数変動の問題とは無関係に、種のきめ細かい識別を実現している。平均して、14の遺伝子のそれぞれは、典型的な16Sアンプリコンベースの研究よりも、近縁の系統をよりよく区別することができる。

 

2024/02/02

 

 

インストール

依存

  • SingleM also has the following non-Python dependencies:

     

  • smafa >= 0.5.0

  • VSEARCH

  • sed - is standard on most linux systems
    Some dependencies of GraftM:

     

  • OrfM >= 0.2.0

  • HMMER >= 3.1b1

  • mfqe >= 0.5.0

  • pplacer >= 1.1.alpha17

  • KronaTools >= 2.4

  • diamond >= 2.0.0

Github

#conda(link)
mamba create -n singlem -y
conda activate singlem
mamba install -c bioconda singlem -y

#pip(link) 他の依存は別に導入する必要あり
pip install graftm
pip install singlem

> singlem 

                ...::: SingleM v0.13.2 :::...

 

  General usage:

    pipe         -> Generate an OTU table from raw sequences.

    summarise    -> Summarise and transform OTU tables.

    renew        -> Reannotate an OTU table with an updated taxonomy

 

  Databases (of OTU sequences):

    makedb       -> Create a searchable database from an OTU table

    query        -> Find closely related sequences in a database.

 

  Assembly and binning:

    appraise     -> How much of the metagenome do the genomes or assembly represent?

 

  Packages (to search with):

    seqs         -> Find the best window for a SingleM package.

    create       -> Create a SingleM package.

    get_tree     -> Extract path to Newick tree file in a SingleM package.

    regenerate   -> Update a SingleM package with a new GraftM package (expert mode).

 

  Use singlem <command> -h for command-specific help.

  Some commands also have an extended --full_help flag.

 

 

実行方法

メタゲノムのシークエンシングリードを指定する。Qualityトリミングされて短くなったリードではなく生のリードを使うことが推奨されている。

singlem pipe --sequences my_sequences.fastq.gz --otu_table otu_table.csv --threads 24

otu_table.csvが得られる。

出力例

  1. マーカ名
  2. サンプル名
  3. そのOTUの塩基配列
  4. そのOTUから検出されたリードの数
  5. このOTUに由来するゲノムの推定カバレッジ
  6. pplacerによるOTU内の各リードの分類の "中央値"

 

Kronaプロットを作成する。otu_table.csvを指定する。

singlem summarise --input_otu_tables otu_table.csv --krona my_krona.html

ワイルドカードで複数指定することもできる(指定できるファイルの上限は100超)。

 

配列をクラスタリングし、OTUにまとめる。複数のotu_table.csvを指定する。

singlem summarise --input_otu_tables otu_table1.csv otu_table2.csv --output_otu_table combined.otu_table.csv

 

QIIME で使用するために BIOM 形式に変換する。

singlem summarise --input_otu_tables otu_table.csv other_samples.otu_table.csv --rarefied_output_otu_table rarefied.otu_table.csv --number_to_choose 100

 

マーカー遺伝子ごとにBIOMテーブルを生成する。

singlem summarise --input_otu_tables otu_table.csv other_samples.otu_table.csv --biom_prefix myprefix

出力例

 

他にもサンプル間のベータ多様性を計算したりできます。レポジトリを確認して下さい。

引用

GitHub - wwood/singlem: De-novo OTUs from shotgun metagenomes

 

2024/02/01

SingleM and Sandpiper: Robust microbial taxonomic profiles from metagenomic data

Ben J Woodcroft,  Samuel T. N. Aroney,  Rossen Zhao, Mitchell Cunningham,  Joshua A. M. Mitchell,  Linda Blackall,  Gene W Tyson

bioRxiv, Posted January 31, 2024

 

 

関連