macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムシーケンシングリードからCRISPRスペーサーを検出する MetaCRAST

 

 原核生物のゲノムに見られる clustered regularly interspaced short palindromic repeat (CRISPR) arraysは、我々がより多くの生態系において重要なウイルス - 微生物相互作用をよりよく理解するのを助け得る。ウイルスは溶菌感染を介して細胞内の栄養を生態系に放出し、viral shunt (Weitz & Wilhelm, 2012)と呼ばれる生態学的短絡を形成する可能性がある。このようにして、ウイルスは個々の生態系における栄養循環に貢献するだけでなく、より広い規模で地球生物化学的循環を維持することにも貢献する。 CRISPRアレイに組み込まれたウイルスDNAの短いスペーサーは過去の感染の歴史的記録を形成し、したがってウイルスを宿主に結び付ける(Sorek、Kunin&Hugenholtz、2008; Makarova、Wolf&Koonin、2013)。ウイルスの宿主特異性を決定するCRISPRスペーサーのこの能力は最近、多くの生態系からのメタゲノムを使用して探索されている(Anderson、Brazelton&Baross、2011; Sanguino et al、2015; Edwards et al、2015)。アセンブリされたゲノムにおいてCRISPRを検出するための多くのツールが存在するが(Bland et al、2007; Edgar、2007; Grissa、Vergnaud&Pourcel、2007; Rousseau et al、2009)、メタゲノムリードにおけるCRISPR検出方法はほとんど存在しない (Rho et al., 2012; Skennerton, Imelfort & Tyson, 2013; Skennerton, 2006).。

 CRISPRの反復性はそれらをメタゲノムからアセンブリすることを困難にし、アセンブリされていないリードにおいて検出する特別なツールを必要とする。リードからCRISPRアレイを検出し、そしてアセンブルするいくつかのツールが開発された。 MinCED(Mining CRISPRs in Environmental Datasets)はCRT(Bland et al、2007)の修正版であり、一方、ツールCrassは、CRT (Bland et al., 2007) とCRISPRFinder (Grissa, Vergnaud & Pourcel, 2007b)のハイブリッドアルゴリズムでスペーサーを検出する(一部略)。ロングリード(> 177 bp)では、前述のCRT戦略を使用してリピートを検索する。一方、ショートリード(<177 bp)では、適切な間隔の完全長リピート(20〜50 bp)を検索し、これらのリピートを同一のヌクレオチドでのみ拡張することで、CRTアルゴリズムによって引き起こされる潜在的なエラーを回避する。次にCrassは、単一のリピートを含むリードをさらに検索し、一致するダイレクトリピートを決定し、検出されたスペーサーの最初と最後のk-merを使用してスペーサー配置のグラフを作成し、このグラフを使用してCRISPRアレイをアセンブリする。 MinCEDとCrassはどちらもダイレクトリピート配列に関する以前の知識に頼っていないde novo検出法となっている。代わりに、これらは発見されたリピートが確かにCRISPRであるかどうかを決定するために発見的方法を使う。そのような発見的方法には、短く偽のCRISPRアレイを避けるための閾値アレイ長、およびスペーサーが繰り返しにあまりにも類似するCRISPRよりもむしろマイクロサテライトを示すかもしれないアレイを避けるための閾値リピート - スペーサ類似性が含まれる(Bland et al., 2007; Grissa, Vergnaud & Pourcel, 2007a; Skennerton, Imelfort & Tyson, 2013)。

 この論文では、Metagenomic CRISPR Reference-Aided Search Tool(MetaCRAST)、アセンブルされていないメタゲノムシーケンシングリードにおけるCRISPRスペーサー検出を改善する新しいリファレンスガイドツールを紹介する。著者らの知る限りでは、以前の研究は既知のダイレクトリピートを使用してCRISPR検出を改善したが、MetaCRASTは最初のリファレンスガイド、リード依存メタゲノムCRISPR検出ツールである。ゲノムCRISPR同定アルゴリズムCRISPRDetectは、新たに同定されたダイレクトリピートをリファレンスライブラリーと照合して、リピート境界を洗練しアレイを検証する (Biswas et al., 2016)。(一部略)MinCEDやCrassとは異なり、リファレンスガイド方式として、MetaCRASTはユーザーが指定したダイレクトリピート(DR)をメタゲノムから検索することでスペーサー検出を制限する。これらのツール間の関係および使用におけるそのような違いは、論文図1にさらに示されている。そのような特定のDRは、メタゲノムリードのアセンブリまたは分類学的プロファイリングに基づいて選択することができる。 MetaCRASTは、ユーザーがメタゲノムの分類学的構成を制御できるようにすることで、CRISPRアノテーションを改善する。それはまた、de novo検出法に必要とされる発見的方法のために起こり得る真のCRISPR拒絶を回避できる。さらに、CrassおよびMinCEDとは異なり、MetaCRASTは異なるリード長のIlluminaデータセットに対して一貫したパフォーマンスを示す。 

 

 

f:id:kazumaxneo:20190317120834p:plain

Figure 2: A comparison of per-read CRISPR detection strategies (A) between MetaCRAST and existing de novo detection tools (e.g., Crass, MinCED) and an outline of the MetaCRAST workflow (B).   論文より転載 

 

インストール

ubuntu16.04のPython 3.6.8環境でテストした(ホストOS macos10.14)。

依存

  • perl
  • fasta-splitter.pl
  • fastq-splitter.pl
  • cd-hit
  • (CPAN): Text::Levenshtein::XS, String::Approx, Getopt::Std, Bio::SeqIO, Bio::Perl, MCE, MCE::Loop, and MCE::Shared

Fasta-splitter.pl and fastq-splitter.pl are included in the repository. CD-HIT can be installed by entering sudo apt-get install cd-hit

Github

git clone https://github.com/molleraj/MetaCRAST.git
cd MetaCRAST/
sh local_install.sh

MetaCRAST -h

# MetaCRAST -h

MetaCRAST -piod [-tqhrlcan] 

 -p patterns.fasta/q 

 -i infile.fasta/q 

 -o output_dir 

 [-t] tmp_dir 

 -d dist_allowed 

 [-q] (if FASTQ file input) 

 [-h] (use Hamming Distance) 

 [-r] reverse_complement 

 [-l] max_spacer_length 

 [-c] cd_hit_similarity_threshold 

 [-a] total_spacer_cd_hit_similarity_threshold 

 [-n] num_procs 

 [Optional parameters are in brackets] 

dockerイメージも上げておきます。

docker pull kazumax/metachip 

#ホストのカレントディレクトリとイメージの/dataをシェアして起動(pullを飛ばして以下を実行してもOK)
docker run -itv $PWD:/data/ -w /root/MetaCHIP kazumax/metachip

> source ~/.bash_profile
> MetaCHIP PG -h

 

テストラン

MetaCRAST -p query/AMDquery.fa -i data/simAMDmetagenome-600-454.fasta -o test -d 3 -l 60 -c 0.9 -a 0.9
  • -p   Pattern file containing query DR sequences in FASTA or FASTQ format
  • -i    Input metagenome in FASTA or FASTQ format
  • -d   Allowed edit distance (insertions, deletions, or substitutions) for initial read detection with the Wu-Manber algorithm and subsequent DR detection steps
  • -l    Maximum spacer length in bp
  • -c    CD-HIT similarity threshold for clustering spacers detected for each query direct repeat (value from 0 to 1)
  • -a    CD-HIT similarity threshold for clustering all detected spacers (value from 0 to 1)
  • -n    Number of processors to use for parallel processing (and number of temporary metagenome parts)

出力

> head test/totalSpacersCD90.fa

# head test/totalSpacersCD90.fa

>P0S0

AAAAAAGAGTATTGTTCTGGTAAACTGTTGCACTTGC

>P0S5

AATATCTTATAGGTCTCACTGCAACCGTCAGGGAAT

>P0S6

AGAAAATTCAACGGTTTCATGAAGATGGCGAGAT

>P0S7

CGTGCCTCAATGCCAAGGAACAGATCCCTTGTGCC

>P0S9

CTGAAAAATTAAGGGATTACAAAAACCAGCTTTTAAA

 

検出されたCRISPRスペーサー数の確認

grep -c ">" test/totalSpacersCD90.fa

# grep -c ">" test/totalSpacersCD90.fa

117

 

引用

MetaCRAST: reference-guided extraction of CRISPR spacers from unassembled metagenomes
Abraham G. Moller, Chun Liang

PeerJ. 2017; 5: e3788. Published online 2017 Sep 7

 

関連


参考

CRISPR関連文献メモ_2016/07/17(6件) : crisp_bio