macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

塩基をハッシング(ハッシュ化)する ntHash

 

ハッシングは、配列アラインメント、ゲノムおよびトランスクリプトームアセンブリ、 k -mer計数および誤り訂正を含む、多くのバイオインフォマティクスアプリケーションにおける索引付け、照会および迅速類似性検索に広く使用されている。 したがって、ハッシュ操作を迅速化することは、バイオインフォマティクスアプリケーションをより迅速かつ効率的にするために、現場に大きな影響を与えるであろう。 結果 :DNA / RNA配列を処理するために調整されたハッシングアルゴリズムntHashを提示する。 入力シーケンス内の隣接するk -merのハッシュ値を計算する際に最適だろう。典型的なユースケースで最も優れた選択肢よりも1桁高速である。 

 

公式ページ

http://www.bcgsc.ca/platform/bioinfo/software/nthash

 

インストール

本体は公式、またはGithubからクローンする。

Github

#テストスイートをビルド
git clone https://github.com/bcgsc/ntHash.git
cd ntHash/
./autogen.sh
./configure
make
sudo make install

>nttest

 

実行方法

ランダムに生成されたデータセットに対して、ブルームフィルタデータ構造を用いた様々なハッシュメソッドの均一性を評価する。genes.faに長さ 5,000,000bpの遺伝子 100個をリファレンスとして格納する。長さ250bpの4,000,000個のリードをクエリとしてファイルreads.faに保存する。32スレッド指定。

nttest --uniformity --input -q4000000 -l250 -t100 -g5000000 -j32 genes.fa reads.fa
  • -k    the length of k-mer used for runtime test hashing `[50]`
  • -h    the number of generated hashes for each k-mer `[1]`
  • -q    number of queries in query file
  • -l     length of reads in query file
  • -t     number of sequences in reference file
  • -g    length of reference sequence
  • -i      generate random query and reference files
  • -j    number of threads to run uniformity test `[1]`
  • REF_FILE    the reference file name
  • QUERY_FILE    the query file name

 

引用

ntHash: recursive nucleotide hashing

Mohamadi H, Chu J, Vandervalk BP, Birol I.

Bioinformatics. 2016 Nov 15;32(22):3492-3494.

 

*version2の論文も公開されています。