macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ONTのfast5形式の公開データを探してみる

 

NCBIはオックスフォード・ナノポアの.fast5ファイルのサブミットを受け付けていて、マニュアルによると(NCBI SRA File format guide)、fast5ファイルのセット全体をtar.gzファイルで受け付けるとある。

 

NCBI SRAで"fast5 ONT "と検索したところ50件ヒットした。

f:id:kazumaxneo:20210824012906p:plain

Data in Cloud (gs = Google Cloud Storage, s3 = Amazon Simple Storage Service)

 

実際は、上の検索方法ではfast5がサブミットされているのかどうか絞りきれていない。検索漏れもあると思う。fast5のファイルがサブミットされていれば、data accessタブからAWSかGCSのリンクが見つかる。

f:id:kazumaxneo:20210824012722p:plain

 

 

これらはfast5 formatとして公開されている。リンク先からクラウドストレージやローカルマシンにダウンロードしたら、そのままディレクトリに格納してguppyなどでfastqを生成できる。

f:id:kazumaxneo:20210824103718p:plain

guppy5.011での出力。6.8GBのfast5をbasecallするのに1660 GTXで100分ほどかかった。

f:id:kazumaxneo:20210824095556p:plain

 

 

ENAでも少しだけ見つかる。

https://www.ebi.ac.uk/ena/browser/home

f:id:kazumaxneo:20210824013808p:plain

 

 

f:id:kazumaxneo:20210824014008p:plain

 

 

参考

https://www.biostars.org/p/410481/

 

EG_MinION_2016/02_Data_Extraction_QC.md at master · mw55309/EG_MinION_2016 · GitHub