macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

CRISPR arrayを探すwebサービス CRISPRDetect

 

 CRISPR-Casシステムは、バクテリオファージやプラスミドなどの外来遺伝物質からの保護を提供する原核生物の適応免疫システムである。特異性は、侵入するDNAまたはRNAを認識する短い非コーディングRNA(crRNA、CRISPR RNAと呼ばれる)によって提供される。これらの非コーディングRNAは、ほぼ同一のダイレクトリピート(通常21〜48塩基長)を持ち、これらのシステムの免疫「記憶」を提供する短い非同一「スペーサー」によって区切られたCRISPRアレイから派生する [ref.1–6]。 CRISPR-Cas機能には、多くの場合CRISPR遺伝子座の近くに位置するcas遺伝子によってコードされる一連のCasタンパク質が必要である(レビュー[ref.4–11]を参照)。

 CRISPR-Casシステムの分析には、CRISPRアレイとそれらのスペーサーシーケンス全体の検出が必要である。 CRISPRのコンピューター認識は、さまざまな方法でアプローチされてきた。当初、CRISPRはPatScanなどのゲノムパターンマッチングプログラムによって予測されていた[ref.12]。次に、CRISPRの予測と分析を容易にするために、コマンドラインで実行可能なプログラム(CRT [ref.13]、MINCED [.1314]、PILER-CR [.1315]など)とWebアプリケーション(CRISPRFinder、 CRISPI)[.1316、17]が開発され、最近、CRISPR予測がメタゲノムデータに拡張された[ref.18–20]。

 現在の予測アプローチには、特にCRISPRと他のタイプのリピートを区別する際に制限がある。さらに、多くのアレイでは、特に3 '末端で何らかの変異(置換または挿入および/または欠失)が見られる。これらのイベントを特定して表すには、より良いアプローチが必要である。既存の方法の欠点は、予測が利用可能な生物学的情報を十分に活用しないことである。現在の方法は、主に、事前定義されたパラメーターを使用したリピートとスペーサーのシーケンスの類似性(および場合によっては長さの分布)に依存しており、CRISPRの主要な機能を検索しない。たとえば、挿入、、欠失、および複数の点突然変異が発生し、複製中に後続のリピートを介して伝播される場合がある。または、組換えによって一部または全体のリピートおよび/またはスペーサーが削除される場合がある[ref.21-26]。さらに、既存のプログラムのほとんどは、短いまたは劣化したCRISPRアレイを検出できない。高感度でパラメータを設定すると、これらが含まれる場合があるが、多くの非CRISPRゲノムリピートの識別にもつながる。短いCRISPRのような領域を含む多数のリストから真の陽性を見つけるのは面倒である。

 CRISPRアレイは、リピートのduplicationと侵入するDNAからのスペーサーの獲得によって拡大する[ref.27]。このrepeat duplicationとスペーサー統合は、通常、アレイのリーダー末端(プロモーターを含むATリッチ配列)で発生するが[ref.28、29]、内部スペーサーの獲得も発生する[ref.30]。リピートおよびスペーサーは、突然変異、小規模および大規模な挿入または欠失、または組換えによって失われる可能性もある[ref.21、22、26]。さらに、モデリングは、突然変異と選択によって引き起こされる獲得と損失の間に動的な流れがあることを示している[ref.31]。

 最も一般的に使用される予測ツールは、自動予測プロセスの一部としてCRISPR配列にストランドまたは方向性を割り当てないため、配列の約半分が誤った方向で報告される。ただし、最近のツールでは、アレイの予測後ステップとしてCRISPRの方向を決定したり(CRISPRDirection)、アレイの予測後に方向を変えて繰り返したりすることができる(CRISPRstrand)[ref.32、33]。これらの開発は、リピートがCRISPR転写の方向を示すことができることを示した[ref.32–34]。たとえば、いくつかのリピートの3 'にある保存された配列モチーフ(特にATTGAAA(N))は、転写方向の指標である[ref.32、33]。したがって、方向を正しく割り当てるためにCRISPRを予測しながら、リピート/スペーサーの境界を正確に予測することが重要である。 CRISPRDirectionは、配列モチーフに加えて、さまざまな予測因子を使用して配列の方向を決定する[ref.32]。方向を定義することは、スペーサーを正確に識別するために重要である。スペーサーは、同族のDNAまたはRNAターゲット(プロトスペーサーと呼ばれる)を見つけるために使用されるためである[ref.35]。スペーサーは短い(つまり、しばしば約30 nt)ため、真のターゲットを識別することは困難であり、正しくアノテーション付けされたヌクレオチド(nt)が追加されるたびにターゲットの検出が支援される。タイプI、タイプII、およびタイプVシステムでは、スペーサーの一端の塩基は通常「シード」シーケンスの一部であり、塩基ペアリング、ターゲット認識、干渉に重要である[ref.36–40]。同様に、プロトスペーサー隣接モチーフ(PAM)と呼ばれるプロトスペーサーに隣接する重要なモチーフの正確な予測を可能にするために、スペーサーの正確な末端を正しく識別することが重要である[ref.41]。 PAMはターゲット/非ターゲットの識別に不可欠であるため、生物学的に関連するターゲットを識別するには、PAMの正確な位置を知ることが重要である。

(一段落省略)

 ここでは、ウェブベースのコマンドラインツールであるCRISPRDetectを開発した。これにより、ゲノムのCRISPRアレイ、その向き、リピートスペーサーの境界、置換、リピートおよびスペーサーの挿入または欠失を正確に識別できる。このデータは、現在バージョン1.0である検索可能なデータベースCRISPRBankに結合される。 CRISPRDetectからのスペーサー出力は、リンクされたツールCRISPRTarget [ref.35]を使用して、ウイルスおよび他のシーケンスデータベース内のターゲットを検索するために直接使用できる。

 

 

ローカル版

Github

 

webサービス

http://crispr.otago.ac.nz/CRISPRDetect/predict_crispr_array.htmlにアクセスする。

f:id:kazumaxneo:20191215130413p:plain

 

配列をペーストするか、公開済みの配列ならGenBankのaccession IDをペーストする。

f:id:kazumaxneo:20191215144453p:plain

 

出力

f:id:kazumaxneo:20191215145546p:plain

 

上から順に結果が表示される。

Array1

f:id:kazumaxneo:20191215150012p:plain

Array2

f:id:kazumaxneo:20191215150127p:plain

Array3

f:id:kazumaxneo:20191215150221p:plain

 

Array1は以下のダイレクトリピートとスペーサー配列から構成される。記載されている通り、29-bpの完全に同一のダイレクトリピート(identity 100)と、32-bpのスペーサー配列となる。このArrayはindelギャップはない。

f:id:kazumaxneo:20191215152505p:plain

 

検出されたCRISPR Arrayを選択して、上のメニューのフィルタリングを実行できる。

f:id:kazumaxneo:20191215150926p:plain

 

まずフィルタリング対象のArrayを選択する。ここではArray Aにチェックをつける。

f:id:kazumaxneo:20191215151113p:plain

 

フィルタリング内容を上から選択する。ここではAの"Correct common insertion(s) in all repeats of an array"と、Bの"Correct gap(s) at repeat ends"を実行する。処理の意味は右のiマークに記載されている。

f:id:kazumaxneo:20191215151216p:plain

 

Apply~を押すとフィルタリング処理が実行される。

f:id:kazumaxneo:20191215151459p:plain

 

結果は右上からダウンロードできる。

f:id:kazumaxneo:20191215153111p:plain

 

CRISPR RNAとリンクしており、見つかったCRISPR ArrayからCRISPR RNAの最も可能性の高いターゲットを探索できるようになっている。

Export array(s) to CRISPRTargetを選択する。

f:id:kazumaxneo:20191215153442p:plain

 

CRISPRTargetにジャンプする。配列が既に入力されているので、そのまま実行する。

f:id:kazumaxneo:20191215153540p:plain

 

引用
CRISPRDetect: A flexible algorithm to define CRISPR arrays
Ambarish Biswas, Raymond H.J. Staals, Sergio E. Morales, Peter C. Fineran, Chris M. Brown

BMC Genomics. 2016; 17: 356

 

関連