マニュアルより
POD5は、ナノポアシーケンスデータを簡単にアクセスできる方法で保存するためのファイルフォーマットである。このフォーマットはApache Arrowを用いて格納され、標準的なツールを用いて多くの言語でデータを利用することができる。POD5には、POD5データを読み書きするためのコアライブラリと、他の言語でこのデータにアクセスするためのツールキットが含まれている。
Pod5 File Format Documentation
https://pod5-file-format.readthedocs.io/en/latest/
POD5 File Format Design Details
https://pod5-file-format.readthedocs.io/en/latest/
インストール
pip install pod5
> pod5 -h
usage: pod5 [-h] [-v] {convert,inspect,merge,repack,subset,filter,recover,update,view} ...
********** POD5 Tools **********
Tools for inspecting, converting, subsetting and formatting POD5 files
options:
-h, --help show this help message and exit
-v, --version Show pod5 version and exit.
Example: pod5 convert fast5 input.fast5 --output output.pod5
> pod5 convert -h
usage: pod5 convert [-h] {fast5,from_fast5,to_fast5} ...
File conversion tools
options:
-h, --help show this help message and exit
Example: pod5 convert fast5 input.fast5 --output output.pod5
以下のサブコマンドが用意されている。
- pod5 view
- pod5 inspect
- pod5 merge
- pod5 filter
- pod5 subset
- pod5 repack
- pod5 convert fast5
- pod5 convert to_fast5
- pod5 update
実行方法
入力のフォーマットと入出力ファイル名を指定する。
pod5 convert fast5 CM1_091219_S.fast5.2 --output output.pod5
#複数ファイル
pod5 convert fast5 fast5_dir/*fast5 --output output.pod5
ファイルサイズ6.4GBのfast5の変換に5分ほどかかった(CPUモード、CPU: xeon E5 v.4 2680)。ファイルサイズは4.1GBに減少した。
引用
https://github.com/nanoporetech/pod5-file-format
Pod5Viewerというビューアも発表されています。
https://academic.oup.com/bioinformatics/article/40/12/btae665/7915477?login=false