macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

メタゲノムのシーケンシングリードからアセンブリしてCRISPRsを探す Crass

 

 Clustered Regularly Interspaced Short Palindromic Repeats (CRISPRs) は、バクテリオファージ(ファージ)から細胞を保護する細菌および古細菌の適応免疫システムを構成する。 CRISPR遺伝子座の分析により、ファージ感染の履歴が明らかになり、ファージとその宿主間の直接的なリンクが提供される。 CRISPR同定のための現在のツールはすべて完全なゲノムを分析するために開発されたものであり(論文執筆時点)、CRISPR遺伝子座がrepetitive structureと集団の不均一性のためにアセンブリが難しいメタゲノムデータセットの分析にはあまり適していない。ここでは、アセンブリやデータセット内のCRISPRの事前知識を必要とせずに、rawメタゲノムデータからCRISPR遺伝子座を識別および再構築するように設計された新しいアルゴリズムCrassを紹介する。アセンブリされたデータのCRISPRは、多くのコンティグ/スキャフォールドで断片化されていることが多く、CRISPR遺伝子座の母集団の不均一性を完全には表していない。 Crassは、アセンブリベースのアプローチを使用して以前に分析されたメタゲノムで、かなり多くのCRISPRを特定した。 Crassを使用して、システム内のファージと配列相同性のあるスペーサーを含むCRISPRを検出することができたが、これは他のアプローチでは特定できなかっただろう。 Crassの感度、特異性、速度の向上により、メタゲノムデータセット内のCRISPRの包括的な分析が容易になり、微生物コミュニティ内でのファージとホストの相互作用と共進化に関する理解が深まる。

 

インストール

ubuntu18.04のpython3.7環境でテストした。

Github

git cloen https://github.com/ctSkennerton/crass.git
cd crass/
./autogen.sh
./configure
make
make install

#bioconda (link)
conda install -c bioconda crass

crass

$ crass

Compiler Options:

RENDERING = 0

DEBUG = 0

MEMCHECK = 0

ASSEMBER = 1

VERBOSE_LOGGER = 0

Search Debugger =  0

 

Usage:  crass  [options] { inputFile ...}

 

General Options:

-h --help                    This help message

-l --logLevel        <INT>   Output a log file and set a log level [1 - 4]

-o --outDir          <DIR>   Output directory [default: .]

-V --version                 Program and version information

-g --logToScreen             Print the logging information to screen rather than a file

 

CRISPR Identification Options:

-d --minDR           <INT>   Minimim length of the direct repeat

                             to search for [Default: 23]

-D --maxDR           <INT>   Maximim length of the direct repeat

                             to search for [Default: 47]

-n --minNumRepeats   <INT>   Total number of direct repeats in a CRISPR for

                             it to be considered real [Default: 2]

-s --minSpacer       <INT>   Minimim length of the spacer to search for [Default: 26]

-S --maxSpacer       <INT>   Maximim length of the spacer to search for [Default: 50]

-w --windowLength    <INT>   The length of the search window. Can only be

                             a number between 6 - 9 [Default: 8]

CRISPR Assembly Options:

-f --covCutoff       <INT>   Remove groups with less than x spacers [Default: 3]

-k --kmerCount       <INT>   The number of the kmers that need to be

                             shared for clustering [Default: 6]

-K --graphNodeLen    <INT>   Length of the kmers used to make crispr nodes [Default: 7]

 

Output Options: 

-b --numBins          <INT>   The number of colour bins for the output graph.

                              Default is to have as many colours as there are

                              different values for the coverage of Nodes in the graph

-c --graphColour     <TYPE>   Defines the range of colours to use for the output graph

                              the different types available are:

                              red-blue, blue-red, green-red-blue, red-blue-green

-L --longDescription          Set if you want the spacer sequence printed along with the ID in the spacer graph. [Default: false]

-G --showSingltons            Set if you want to print singleton spacers in the spacer graph [Default: false]

 

実行方法

 fastqファイル(gzip圧縮にも対応)を指定する。

crass input.fq

f:id:kazumaxneo:20201124132348p:plain

出力

f:id:kazumaxneo:20201124132511p:plain

 

引用
Crass: identification and reconstruction of CRISPR from unassembled metagenomic data
Skennerton CT, Imelfort M, Tyson GW

Nucleic Acids Res. 2013 May 1;41(10):e105

 

関連

rawリードから探す場合