macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムシークエンシングデータから微生物真核生物ゲノムを取り出すパイプライン Eukfinder

 

 微生物群集のホールゲノムショットガン(WGS)メタゲノムシークエンシングにより、多様な生態系に生息する微生物の原核生物や真核生物の機能、生理、進化の歴史を発見することができる。その重要性にもかかわらず、微生物真核生物のメタゲノム研究は、WGSデータから高品質の真核生物ゲノムを同定し、アセンブルすることが困難なため、原核生物の研究に比べて遅れている。この問題に対処するため、本著者らは、WGSメタゲノミクスデータから真核微生物の核ゲノムおよびミトコンドリアゲノムを復元し、アセンブルするバイオインフォマティクスパイプラインであるEukfinderを開発した。ワークフローの一環として、2つの特殊なデータベースを利用し、対象データセットや環境に合わせてカスタマイズ可能な分類法に基づいてリードを分類する。Eukfinderをヒト腸内細菌叢のWGSメタゲノミックシーケンスデータに適用し、ヒトや動物の消化管に非常に多く寄生する原生寄生生物Blastocystis sp.からゲノムを回収した。Eukfinderは、細菌リードと組み合わせたBlastocystisリードの数を変化させた一連のシミュレート腸内細菌叢データセットと、Blastocystisを含む実際のメタゲノム腸内サンプルの両方を用いてテストした。Eukfinderの結果を他の公開ワークフローと比較した。十分なリードが読まれている場合、Eukfinderは、リファレンスゲノムを用いることなく、メタゲノミックデータから多様なBlastocystisサブタイプから高品質でほぼ完全な核およびミトコンドリアゲノムを効率的にアセンブルした。さらに、十分な深さの配列サンプリングにより、Eukfinderはメタゲノムデータから真核生物のゲノムを復元するために使用される同様のツールよりも優れた性能を示した。Eukfinderは、環境メタゲノムシーケンスサンプルから、リファレンスに依存せず、培養なしで真核微生物ゲノムを研究するための有用なツールとなるだろう。

 

wiki

https://github.com/dzhao2019/eukfindertest/wiki

(マニュアルより)(a)ショートリードを用いるEukfinder_shortのランでは、まずショートリードを5つの異なる分類学的カテゴリー(Archaeal、Bacterial、Viral、Eukaryotic、Unknown)に分類する、 (b)Eukfinder_longのランでは、MAGのコンティグや、NanoporeやPacbioプラットフォームのロングリードシーケンスデータを使用する。Eukfinder_longは、EukaryoticおよびUnknownコンティグを選択するために1ラウンドの分類を行い、教師付きビニングの後、真核生物ゲノムおよびミトコンドリアゲノムを生成する。

 

インストール

依存

  • Python >= 3.7
  • ete3,numpy, pandas, joblib, pyqt, spades, seqkit, trimmomatic, bowtie2, centrifuge, acc2tax, plast

git clone https://github.com/RogerLab/Eukfinder.git
cd Eukfinder/
mamba create -n Eukfinder python=3.9 -y
conda activate Eukfinder
mamba install -c conda-forge -c bioconda -y ete3 numpy pandas joblib pyqt=5 spades seqkit trimmomatic bowtie2

#centrifuge(github)
git clone https://github.com/DaehwanKimLab/centrifuge
cd centrifuge
make -j20
sudo make install

PLAST (paper) とacc2tax(紹介)も必要

#PLAST
wget https://github.com/PLAST-software/plast-library/releases/download/v2.3.2/plastbinary_linux_v2.3.2.tar.gz
tar -zxf plastbinary_linux_v2.3.2.tar.gz
export PATH=$PWD/plastbinary_linux_v2.3.2/build/bin:$PATH

#acc2tax
git clone https://github.com/richardmleggett/acc2tax.git
cd acc2tax/
cc -o acc2tax acc2tax.c
export PATH=$PWD:$PATH
cd ../

 

データベース

4つダウンロードする。

https://perun.biochem.dal.ca/Metagenomics-Scavenger/

 

実行方法

ショートリードとロングリードを使用するコマンドが用意されている。

 

ショートリードを使うコマンドの1例

python3 eukfinder.py read_prep --r1 Illumina_1.fastq --r2 Illumina_2.fastq -n 20 --hcrop 10 -l 15 -t 15 --wsize 40 --qscore 25 --mlen 40 --hg GCF_000001405.39_GRCh38.p13_genomic.fna -o Eukfinder_output --cdb Centrifuge_NewDB_Sept2020/ -i TrueSeq2_NexteraSE-PE.fa --mhlen 40

 

  • EukfinderをBiocondaで利用できるようにするため更新が続いている。
  • 現在開発が続いており、まだヘルプなどは用意されていない。

引用

Eukfinder: a pipeline to retrieve microbial eukaryote genomes from metagenomic sequencing data.

Dandan Zhao, Dayana E. Salas-Leiva, Shelby K. Williams, Katherine A. Dunn,  Andrew J. Roger

bioRxiv, Posted December 28, 2023