macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムからITS配列を抽出する extractITSスクリプト

 

ITSx (Bengtsson-Palme et al., 2013)は、ゲノムFastaファイルからITS配列を抽出するためのリファレンスベースのメソッドであるが、非常に時間がかかる。最近、リボソームRNA遺伝子を高速かつ正確に特定するBarrnapが開発された。この2つのソフトウェアを組み合わせて配列比較を行うことにより、このスクリプトは真菌ゲノムからのITS配列の高速抽出を可能にする。

 

インストール

ubunutu20でpython3.6の環境を作ってテストした。

依存

本体 Github

mamba create -n ITS python=3.6 -y
conda activate ITS
#古いbiopythonが必要、ここでは1.60をインストール
pip install biopython==1.60
#pandas, barrnapも必要
mamba install pandas -y
mamba install -c bioconda barrnap -y
#itsx (conda)
mamba install -c bioconda itsx -y

#本体
git clone https://github.com/fantin-mesny/Extract-ITS-sequences-from-a-fungal-genome.git
cd Extract-ITS-sequences-from-a-fungal-genome/

python extractITS.py -h

$ python extractITS.py -h

usage: extractITS.py [-h] -i I -o O [-which WHICH] [-cpu CPU] [-name NAME]

 

Extract ITS1 from fungal genome rapidly

 

optional arguments:

  -h, --help            show this help message and exit

  -i I, --i I           input genome file

  -o O, --o O           output directory

  -which WHICH, --which WHICH

                        Which ITS sequence to extract (ITS1|ITS2) default=ITS1

  -cpu CPU, --cpu CPU   number of threads/cores to use

  -name NAME, --name NAME

                        name

 

 

 

実行方法

ゲノムからITS II配列を抽出する。

mkdir outdir
python extractITS.py -which ITS2 -i genome.fasta -o outdir -name mySpecies
  • -which    Which ITS sequence to extract (ITS1|ITS2) default=ITS1
  • -name     name

出力例(-nameで指定した名前が抽出されたITS配列ファイル名のprefixとなる)

 

引用

https://github.com/fantin-mesny/Extract-ITS-sequences-from-a-fungal-genome?tab=readme-ov-file

 

参考

https://pubmed.ncbi.nlm.nih.gov/23350562/

"本研究では、真菌のDNAメタバーコーディングマーカーとしてのITS1とITS2の使い分けを評価した。バイオインフォマティクスパイプラインClustExを用いた分類学的に既知の配列のクラスタリング解析の結果、ITS1、ITS2ともに、類似度97%カットオフがデータセット中の既知の種の数を推定するための妥当な閾値であることが明らかになった。また、多くの種が複数のクラスターにまたがって分布しているため、OTU(Operational Taxonomic Unit:操作分類学的単位)の概念を種のレベルに変換することは容易ではないことがわかった。"

 

*1

ITSについて

リボソームオペロンのスモールサブユニット遺伝子とラージサブユニット遺伝子(それぞれSSU/18SとLSU/28S)は比較的保存されており、主に大規模な系統推定や系統分類に用いられている。これらの間にある約550塩基対(bp)の長さのlong internal transcribed spacer(ITS)領域はより変化に富んでおり、属レベルの系統推定、種の区切り、種の同定を解読するために応用されている(Eberhardt 2010)。植物や動物など、他のいくつかの真核生物グループでも同様の役割を果たしている。

 

関連

真菌のITSやコアタンパク質コード遺伝子を使った系統解析を自動で実行する UFCG pipeline