macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

教師なしクラスタリングによりロングリードのホストとコンタミ配列を分離するリファレンスフリー法 Symbiont-Screener

2023/03/10 追記

 

 メタゲノムシークエンシングは、培養を必要としない複雑な微生物コミュニティの大規模な構成の解析と機能的特徴付けを容易にする。最近のロングリードシーケンス技術の進歩は、長距離情報を利用して、repeat-awareなメタゲノムアセンブリパズルや複雑なゲノムビニングタスクを簡略化している。しかし、高いシークエンシングエラー率とリファレンスゲノムがない場合、微生物群集から宿主由来のDNA配列をリード解像度で除去することは、方法論的に依然として困難である。著者らは、Symbiont-Screener (https://github.com/BGI-Qingdao/Symbiont-Screener)を紹介する。これは、trioベースのスクリーニングモデルに従って、共生生物や汚染物質から信頼度の高い宿主ロングリードを特定し、低いシークエンシング精度を克服するリファレンスフリーのアプローチである。残りの宿主配列は、教師なしクラスタリングによって自動的にグループ化される。シミュレーションと実際のロングリードデータセットに適用したところ、他のツールと比較して、宿主の生リードを識別する精度と再現率が高く、宿主ゲノムと関連メタゲノムの高品質な再構成が約束される。さらに、PacBio HiFiとnanoporeロングリードの両方を活用して、実際の宿主-微生物系(藻類-細菌サンプル)の宿主配列を分離したところ、アセンブリの連続性、完全性、純度の面で宿主アセンブリが明らかに改善されたことを確認した。さらに重要なことは、スクリーニング後に残存する共生微生物群が、ゲノムプロフィールの改善とアセンブリの向上を示していることで、下流バイオインフォマティクス解析のためのデータ基盤が明らかになり、共生研究に新しい視点を提供することになった。

インストール

mambaで環境を作ってテストした。

依存

  • make
  • gcc/g++ (version>4.8.5 to support c++11)

python3 in your environment with packages :

  • numpy
  • pandas
  • sklearn
  • plotly

Third-party software:

  • strobmers

Github

mamba create -n symbiontscreener -y
conda activate symbiontscreener
mamba install -c intel scikit-learn -y
mamba install -c bioconda symbiontscreener -y

#from source
git clone https://github.com/BGI-Qingdao/Symbiont-Screener  ./Symbiont-Screener
cd  ./Symbiont-Screener/sources
make

> sysc

> sysc build_s40

#----------------------------------------

LOG : version           -- 1.0-0-0

LOG : release date      -- 2023/01/06

LOG : installation path -- /home/kazu/mambaforge/envs/symbiontscreener/bin 

#----------------------------------------

CMD : symbiontscreener/bin/sysc build_s40

CMD : symbiontscreener/bin/symbiontscreenerbin/s40_pipeline/build_s40.sh -h

Usage    :

  ./sysc build_s40 [OPTION]

 

Build randstrobe(2,10,30,30) based on paternal and maternal NGS reads by jellyfish.

 

Options  :

  basic input:

        --paternal    paternal NGS reads file in FASTA/FASTQ format.

                      file in gzip format can be accepted, but filename must end by ".gz".

        --maternal    maternal NGS reads file in FASTA/FASTQ format.

                      file in gzip format can be accepted, but filename must end by ".gz".

  resources:

        --thread      thread number.

                      [ optional, default 8 threads. ]

        --size        initial hash table by jellyfish.

                      [ optional, default 1GB. ]

  detail configuration:

        --auto_bounds (0/1) automatically calcuate lower and upper bounds based on kmer analysis.

                      [ optional, default 1; ]

        --m-lower     maternal kmer frequency table will ignore kmers with count < m-lower.

                      [ optional, default 0. ]

        --m-upper     maternal kmer frequency table will ignore kmers with count > m-upper.

                      [ optional, default 0. ]

        --p-lower     paternal kmer frequency table will ignore kmers with count < p-lower.

                      [ optional, default 0. ]

        --p-upper     paternal kmer frequency table will ignore kmers with count > p-upper.

                      [ optional, default 0. ]

 

> sysc density_s40 -h

 

#----------------------------------------

LOG : version           -- 1.0-0-0

LOG : release date      -- 2023/01/06

LOG : installation path -- /home/kazu/mambaforge/envs/symbiontscreener/bin 

#----------------------------------------

CMD : symbiontscreener/bin/sysc density_s40 -h

 

Usage    :

    ./sysc density_s40 [OPTION]

 

Options  :

        --offspring         Offspring sequence file.

                            gzip format file is supported but should end by '.gz' 

        --offspring_format  fasta/fastq 

                            [ optional, default fasta]

        --thread            thread num.

                            [ optional, default 8 threads. ]

(他のコマンドは省略)

 

 

実行方法

テスト用にZenodeのレポジトリで父方のNGSリードファイル、母方のNGSリードファイル、子供のTGSリードファイルが公開されている。3つをダウンロードした。

https://zenodo.org/record/7257538#.ZAdQjHZByZR

父方と母方がシングルエンドのショートリード、mix_simpbが平均長10-kbのロングリード。

親子3人組の関係から、子孫のデータに含まれる可能性のある外来ゲノムは5種類に分類される:子孫のみの(OC)でこれはおそらくランダムな汚染物質、父親と子孫で共有されている外来ゲノム(POC)、母親と子孫で共有されている外来ゲノム(MOC)、最後は3人で共有されている外来ゲノム(SC)で、これはおそらく安定した共生体(論文より)。ここで実行するスクリプトは、宿主側のリードと共生生物のリードに分けてそれぞれ回収する。

 

4つのフローがある。画像の通りSTARTから始めてENDまでのフローで進める。画像右には自動実行できるスクリプトとの関係が示されている。

4つのフローを簡単に実行するためのスクリプトも準備されている。

これを使うにはレポジトリをクローンする。

git clone https://github.com/BGI-Qingdao/Symbiont-Screener.git
cd Symbiont-Screener/easy-to-use_pipelines/

 

4つのスクリプトのうち、推奨されているsysc_strobmercluster_mode.sh(strobemer 密度、GC含量、トリヌクレオチドの組成特徴量を使ったクラスタリングあり)を使う。

sysc_strobmercluster_mode.sh \
         --maternal maternal_mix_simngs.v2.fasta.gz \
         --paternal paternal_mix_simngs.v2.fasta.gz \
         --offspring  mix_simpb.fasta.gz

結果とlogはカレントに保存される。終了するまで一晩かかった。

宿主と共生生物のリードはhost.faとsymbiont.faとして保存される。

 

引用

Symbiont-Screener: a reference-free filter to automatically separate host sequences and contaminants for long reads or co-barcoded reads by unsupervised clustering
Mengyang Xu, Lidong Guo, Yanwei Qi, Chengcheng Shi, Xiaochuan Liu, Jianwei Chen, Jinglin Han, Li Deng, Xin Liu and Guangyi Fan

Front. Mar. Sci., 30 January 2023

 

関連