macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

POD5ツール

 

マニュアルより

POD5は、ナノポアシーケンスデータを簡単にアクセスできる方法で保存するためのファイルフォーマットである。このフォーマットはApache Arrowを用いて格納され、標準的なツールを用いて多くの言語でデータを利用することができる。POD5には、POD5データを読み書きするためのコアライブラリと、他の言語でこのデータにアクセスするためのツールキットが含まれている。

 

Pod5 File Format Documentation

https://pod5-file-format.readthedocs.io/en/latest/

POD5 File Format Design Details

https://pod5-file-format.readthedocs.io/en/latest/

 

インストール

Github

pip install pod5

> pod5 -h

usage: pod5 [-h] [-v] {convert,inspect,merge,repack,subset,filter,recover,update,view} ...

 

**********      POD5 Tools      **********

 

Tools for inspecting, converting, subsetting and formatting POD5 files

 

options:

  -h, --help            show this help message and exit

  -v, --version         Show pod5 version and exit.

 

Example: pod5 convert fast5 input.fast5 --output output.pod5

 

> pod5 convert -h

usage: pod5 convert [-h] {fast5,from_fast5,to_fast5} ...

 

File conversion tools

 

options:

  -h, --help            show this help message and exit

 

Example: pod5 convert fast5 input.fast5 --output output.pod5

 

 

以下のサブコマンドが用意されている。

- pod5 view
- pod5 inspect
- pod5 merge
- pod5 filter
- pod5 subset
- pod5 repack
- pod5 convert fast5
- pod5 convert to_fast5
- pod5 update

 

実行方法

入力のフォーマットと入出力ファイル名を指定する。

pod5 convert fast5 CM1_091219_S.fast5.2 --output output.pod5

#複数ファイル
pod5 convert fast5 fast5_dir/*fast5 --output output.pod5

ファイルサイズ6.4GBのfast5の変換に5分ほどかかった(CPUモード、CPU: xeon E5 v.4 2680)。ファイルサイズは4.1GBに減少した。

 

引用

https://github.com/nanoporetech/pod5-file-format

 

Pod5Viewerというビューアも発表されています。

https://academic.oup.com/bioinformatics/article/40/12/btae665/7915477?login=false