Clustered Regularly Interspaced Short Palindromic Repeats (CRISPRs) は、バクテリオファージ(ファージ)から細胞を保護する細菌および古細菌の適応免疫システムを構成する。 CRISPR遺伝子座の分析により、ファージ感染の履歴が明らかになり、ファージとその宿主間の直接的なリンクが提供される。 CRISPR同定のための現在のツールはすべて完全なゲノムを分析するために開発されたものであり(論文執筆時点)、CRISPR遺伝子座がrepetitive structureと集団の不均一性のためにアセンブリが難しいメタゲノムデータセットの分析にはあまり適していない。ここでは、アセンブリやデータセット内のCRISPRの事前知識を必要とせずに、rawメタゲノムデータからCRISPR遺伝子座を識別および再構築するように設計された新しいアルゴリズムCrassを紹介する。アセンブリされたデータのCRISPRは、多くのコンティグ/スキャフォールドで断片化されていることが多く、CRISPR遺伝子座の母集団の不均一性を完全には表していない。 Crassは、アセンブリベースのアプローチを使用して以前に分析されたメタゲノムで、かなり多くのCRISPRを特定した。 Crassを使用して、システム内のファージと配列相同性のあるスペーサーを含むCRISPRを検出することができたが、これは他のアプローチでは特定できなかっただろう。 Crassの感度、特異性、速度の向上により、メタゲノムデータセット内のCRISPRの包括的な分析が容易になり、微生物コミュニティ内でのファージとホストの相互作用と共進化に関する理解が深まる。
インストール
ubuntu18.04のpython3.7環境でテストした。
git cloen https://github.com/ctSkennerton/crass.git
cd crass/
./autogen.sh
./configure
make
make install
#bioconda (link)
conda install -c bioconda crass
> crass
$ crass
Compiler Options:
RENDERING = 0
DEBUG = 0
MEMCHECK = 0
ASSEMBER = 1
VERBOSE_LOGGER = 0
Search Debugger = 0
Usage: crass [options] { inputFile ...}
General Options:
-h --help This help message
-l --logLevel <INT> Output a log file and set a log level [1 - 4]
-o --outDir <DIR> Output directory [default: .]
-V --version Program and version information
-g --logToScreen Print the logging information to screen rather than a file
CRISPR Identification Options:
-d --minDR <INT> Minimim length of the direct repeat
to search for [Default: 23]
-D --maxDR <INT> Maximim length of the direct repeat
to search for [Default: 47]
-n --minNumRepeats <INT> Total number of direct repeats in a CRISPR for
it to be considered real [Default: 2]
-s --minSpacer <INT> Minimim length of the spacer to search for [Default: 26]
-S --maxSpacer <INT> Maximim length of the spacer to search for [Default: 50]
-w --windowLength <INT> The length of the search window. Can only be
a number between 6 - 9 [Default: 8]
CRISPR Assembly Options:
-f --covCutoff <INT> Remove groups with less than x spacers [Default: 3]
-k --kmerCount <INT> The number of the kmers that need to be
shared for clustering [Default: 6]
-K --graphNodeLen <INT> Length of the kmers used to make crispr nodes [Default: 7]
Output Options:
-b --numBins <INT> The number of colour bins for the output graph.
Default is to have as many colours as there are
different values for the coverage of Nodes in the graph
-c --graphColour <TYPE> Defines the range of colours to use for the output graph
the different types available are:
red-blue, blue-red, green-red-blue, red-blue-green
-L --longDescription Set if you want the spacer sequence printed along with the ID in the spacer graph. [Default: false]
-G --showSingltons Set if you want to print singleton spacers in the spacer graph [Default: false]
実行方法
fastqファイル(gzip圧縮にも対応)を指定する。
crass input.fq
出力
引用
Crass: identification and reconstruction of CRISPR from unassembled metagenomic data
Skennerton CT, Imelfort M, Tyson GW
Nucleic Acids Res. 2013 May 1;41(10):e105
関連
rawリードから探す場合