index (バーコード配列) を設計する際は、判別可能かつ無駄のない適切な長さ、増幅バイアスが起きないようなGC含量、実験データとの干渉がないなどを考える必要がある。それに加えて、index配列に塩基置換、indelなどのシーケンスエラーが起きる可能性があるが、それでもdemulplexingできる十分な特異性を持ったindex配列が望ましい。しかしながら、indexを数千必要とするような実験系では手動での選抜は困難である。TagGDはこのindexを自動設計するツールで、数千〜数万のユニークなindexを数秒~数分で設計することができる。
インストール
https://github.com/JoelSjostrand/taggd
git clone https://github.com/pelinakan/UBD.git
cd UBD/bin/mac/
#実行権の付与
chmod u+x
#binにパスを通す。または →
echo export PATH=\$PATH:`pwd`\ >> ~/.bash_profile && source ~/.bash_profile
#→ パスの通ったディレクトリにコピーする。
cp designBarcode /usr/local/bin/
cp findIndexes /usr/local/bin/
上記リンクからダウンロードして、bin/mac/のバイナリを使う。上記のように打って実行権をつけ、パスも通しておく。
> ./designBarcode
$ UBD/bin/mac/designBarcode
Version: 1.0
Usage: designBarcodes [options] <output>
Options:
-c [STR] Configuration file
-n [INT] Number of barcodes to output.
>./findIndexes
$ /bin/mac/findIndexes
Program: findIndexes
Contact: Paul Costea <paul.igor.costea@embl.de>
Usage: findIndexes [options] <ids.txt> <in.fastq> <out.fastq>
Options:
-m INT allowed mismatches [2]
-k INT kMer length [1/3*length]
-s INT start position of ID [0]
-l INT length of ID [0]
-e INT id positional error [0]
-p STRING name of pair file [NULL]
uesaka-no-Air-2:UBD kazumaxneo$
python版もある。
GitHub - JoelSjostrand/taggd: Genetic barcode demultiplexing
ラン
index配列を10000種類設計する(数が万近くまで増えると重くなる)。
designBarcode -c /config_example.txt -n 10000 out.txt
fastqからバーコードを探すfindIndexesというコマンドもある。Githubで使い方は確認してください。
引用
TagGD: Fast and Accurate Software for DNA Tag Generation and Demultiplexing
Paul Igor Costea, Joakim Lundeberg, Pelin Akan
Published: March 4, 2013https://doi.org/10.1371/journal.pone.0057521