macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

固有のindex(バーコード)を設計するTagGD

 

index (バーコード配列) を設計する際は、判別可能かつ無駄のない適切な長さ、増幅バイアスが起きないようなGC含量、実験データとの干渉がないなどを考える必要がある。それに加えて、index配列に塩基置換、indelなどのシーケンスエラーが起きる可能性があるが、それでもdemulplexingできる十分な特異性を持ったindex配列が望ましい。しかしながら、indexを数千必要とするような実験系では手動での選抜は困難である。TagGDはこのindexを自動設計するツールで、数千〜数万のユニークなindexを数秒~数分で設計することができる。

 

 

インストール

Github

https://github.com/JoelSjostrand/taggd

git clone https://github.com/pelinakan/UBD.git
cd UBD/bin/mac/

#実行権の付与
chmod u+x

#binにパスを通す。または →
echo export PATH=\$PATH:`pwd`\ >> ~/.bash_profile && source ~/.bash_profile

#→ パスの通ったディレクトリにコピーする。
cp designBarcode /usr/local/bin/
cp findIndexes /usr/local/bin/

 上記リンクからダウンロードして、bin/mac/のバイナリを使う。上記のように打って実行権をつけ、パスも通しておく。

> ./designBarcode

$ UBD/bin/mac/designBarcode

 

Version: 1.0

Usage:   designBarcodes [options] <output>

Options: 

         -c [STR]            Configuration file

         -n [INT]            Number of barcodes to output.

 

 

>./findIndexes

$ /bin/mac/findIndexes 

 

Program: findIndexes 

Contact: Paul Costea <paul.igor.costea@embl.de>

 

Usage:   findIndexes [options] <ids.txt> <in.fastq> <out.fastq>

 

Options: 

         -m INT     allowed mismatches [2]

         -k INT     kMer length [1/3*length]

         -s INT     start position of ID [0]

         -l INT     length of ID [0]

         -e INT     id positional error [0]

         -p STRING  name of pair file [NULL]

 

uesaka-no-Air-2:UBD kazumaxneo$ 

python版もある。

GitHub - JoelSjostrand/taggd: Genetic barcode demultiplexing

 

ラン

index配列を10000種類設計する(数が万近くまで増えると重くなる)。

designBarcode -c /config_example.txt -n 10000 out.txt

 

fastqからバーコードを探すfindIndexesというコマンドもある。Githubで使い方は確認してください。

 

引用

TagGD: Fast and Accurate Software for DNA Tag Generation and Demultiplexing

Paul Igor Costea, Joakim Lundeberg, Pelin Akan

Published: March 4, 2013https://doi.org/10.1371/journal.pone.0057521