最適なバーコード配列を選び出す BARCOSEL

　ハイスループットシーケンス解析プラットフォームの能力の使用を最大限にするため、いくつかのサンプルを一緒にプールすることが一般的である。たとえば、現時点では、Illumina HiSeqX1回の実行で1つのレーンから数億回シーケンシングでき、新しいNovaSeqは1回の実行で数十億回のシーケンシングできる。アプリケーションが1サンプルあたり数千万リードしか必要としない場合、1つのサンプルにレーン全体を割り当てることは無駄になる。したがって、いくつかのシークエンシングライブラリーは一緒にプールされ、シークエンシング装置内の同じレーンを用いて並行してシークエンシングされる。これは、シーケンシング後に異なるサンプルをどのように分離するかという問題を導入する。標準的な解決方法は、異なるサンプルに短いバーコードシーケンスラベルを使用することである。これらのバーコード配列は、ライブラリー調製中に断片に結合される。シーケンシング後にサンプルを混合し、次いでそれらを分離する2つのプロセスは、それぞれmultiplexing 及び demultiplexingと呼ばれる。

　正しく機能させるためには、バーコード配列は互いに十分に異なるべきである。バーコードシーケンスにおける冗長性は、誤り訂正の可能性を提供する。例えば、バーコード検出で１塩基のミスマッチを許容するためには、異なるバーコード配列は、少なくとも互いに3ヌクレオチドミスマッチ分離れていなければならない。より一般的には、m個のミスマッチを許容するために、すべてのバーコード対間の距離は少なくとも2m + 1でなければならない。シーケンシング技術は、バーコードが最適であるというさらなる制約を与えることがある。例えば、Illuminaシーケンサーでは、A / C用の赤色レーザーとG / T用の緑色レーザーの2つのレーザーを使用してヌクレオチドを検出する。最適な検出のために、これらの2つのヌクレオチドグループは、各バーコード位置のすべてのバーコード間でバランスがとれている必要がある。実験は、ヌクレオチド組成の多様性の低下がデータ損失をもたらすことを示している[論文より　ref.1 PLOS ONE]。クラスター同定においてヌクレオチド多様性が重要であることに加えて、良好な塩基組成は上手くbasecallingを行うためにも重要である。

　新規バーコード設計、すなわち、バーコードのセットをfrom scratchで構築するプロセスは解決された問題であり、いくつかのツールが利用可能である[ref.2,3,4]。最初のバーコードデザインの1つは、バーコード間の非類似性を測定するためにハミング距離（wiki）が使用された[ref.5]。ハミング距離は[ref.6]で使用されている。挿入および欠失を考慮すると、レーベンシュタイン距離（wiki）（編集距離とも呼ばれる）が得られる [ref.7]。配列類似性、複雑さ、GC含量、およびセルフハイブリダイゼーションは、[ref.8]および[ref.9]において考慮され、バーコード間のヌクレオチドバランスはイルミナプラットフォームで少数サンプルのmultiplexingを行う際に特に重要になる。

　しかしながら、ユーザが既にあるバーコードのセットから最適なバーコードのセットを選択したい場合には、前述のツールのいずれも適用できない。サブセットの選択を報告する唯一のツール[ref.4]は、ユーザーが結果のバーコード数を定義することさえできず、さらにヌクレオチドバランスが考慮されていない（論文の追加ファイル1）。候補バーコードのセットは、すべてのバーコードサブセットが等しいと仮定している。最小ペアワイズ距離の基準は満たされているが、異なるサブセットは異なるヌクレオチドバランスを有するので、これは当てはまらない。シーケンシングセンターでは、バーコードの選択は実際的な毎日の問題である。個々の実験ごとにユニークなセットを注文することは無駄になる。他の極端な場合、ヌクレオチドバランスを保持するために将来のすべてのシーケンシング解析で同じセットのバーコードを再使用するとすれば、multiplexingされるサンプル数は常に一緒にせねばならず非常に制限的である。

　現時点では、イルミナはさまざまなサンプルのmultiplexingの際に、バーコード表を提供し、バーコードを選択する手順を説明している[ref.10 Google Scholar]。これらのrecommendationsではヌクレオチドバランスが考慮されている。ただし、イルミナの表ではバーコードセットは固定されている。この論文の著者らのツールでは、ユーザーが候補バーコードのセットを提供しユーザーが選択できる。ユーザが必要なバーコードの数を定義した後、ツールは、最小ペアワイズ配列距離の閾値を満たす最適セットを見出す。重要なことに、ヌクレオチドバランスが最適化されている。

　我々（著者ら）のツールを適用できる3つのタスクを論文図1（BMC Bioinformatics link）に示す。主なアプリケーションは、与えられた候補から最適なバーコードセットを選択することである（論文　図1a）。別のアプリケーションは、ユーザーが選択したバーコードのバーコード距離とヌクレオチドバランスを確認することである（論文図1b）。たとえば、2つのライブラリがある場合、それらのバーコードに互換性があり、一緒に配列されるかどうかをチェックするために使用できる。第3のアプリケーションは、バーコードのセットを増やすことである（論文　図1c）。これは、ユーザが既存のシーケンシングライブラリに新しいサンプルを追加したい場合である。既存のものを考慮して、新しいサンプルの最適なバーコードが見つけられます。

BARCOSELには３つの計算モードがある。論文より転載。

マニュアル

http://ekhidna2.biocenter.helsinki.fi/barcosel/info.txt

ラン

BARCOSELにアクセスする。

ここではトップページに準備されている8塩基バーコード配列が記載されたmulti-FASTAデータをダウンロードし、それを使って、もっともバーコードに適した組み合わせを選抜する流れを確認する。このデータは論文の説明に使われた配列セットで、TagGDを使って出力し（紹介）、それからPCRに適したものをFastPCR（紹介）で選抜して得た288のバーコード配列セットである。

1、multi-FASTAをアップロードまたはbox内に直接コピー&ペーストする。

f:id:kazumaxneo:20180711190240p:plain

２、Number of ~に最終的に必要なバーコード数を記載する。ここでは4とした。

３、Submitする。

結果: デフォルトでは10秒以内に結果は出力される。

f:id:kazumaxneo:20180711190325p:plain

元のリストから、最も塩基バランスの良い４つのバーコード配列が選抜された。出力された図をみると明らかなように、塩基配列のバランス（上の図）、illuminaシーケンサーのG/TとA/Cのレーザによるバランス、いずれも均等になっている（４の倍数の時に完全に均等になりうる）。

バラバラな配列であることは、選抜された配列を縦読みしてもすぐに分かる。

f:id:kazumaxneo:20180711190640p:plain

配列はテキスト形式でダウンロードできる。

次は選抜数を６にした。

f:id:kazumaxneo:20180711191414p:plain

４の倍数でないので各ポジションの塩基組成は均等にはならないが（上半分の図）、A/CとG/Tのレーザーのバランスは全てのポジションで50:50になっている（下半分の図）。

Advancedをクリックすると、いくつかのパラメータを指定できる。バーコード間の距離はデファルトはハミング距離 (number of nucleotide differences between two barcodes in the gapless alignment) で計算されるが、レーベンシュタイン距離 (number of substitutions, insertions, and deletions to convert one barcode sequence into another)に変えることができる。Minimum distanceは、defaultの3なら１塩基のミスマッチまでは完全に区別できることになる。２塩基ミスマッチまで100% 区別するためには、Minimum distanceの値は5にする必要がある。

詳細は論文と上にリンクを貼ったマニュアルを読んで確認してください。

TagGD

引用

BARCOSEL: a tool for selecting an optimal barcode set for high-throughput sequencing

Somervuo P, Koskinen P, Mei P, Holm L, Auvinen P, Paulin L

BMC Bioinformatics. 2018 Jul 5;19(1):257.