macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

PacBioのbamをfastqに変換し、残存しているPacBioアダプター配列を取り除く HiFiAdapterFilt

 

 第3世代のシーケンサー技術により、ゲノムシークエンシングとアセンブルに革命が起こり、その速度はますます速くなっている。現在のシーケンシング戦略の1つは、PacBio Sequel II装置での高コンセンサス精度サーキュラーコンセンサスシーケンス(CCS)に由来するHiFiシーケンシングである。PacBio CCSシーケンシングは、PacBioの連続ロングリード技術を活用し、リードを繰り返しシーケンスしてコンセンサス配列を作成し、従来のロングリード技術よりも高いコンセンサス精度とIlluminaリードをはるかに上回る長さのリードプールを生成する[ref.1]。この技術は真核生物の幅広いシークエンシングとアセンブルに使用されており、Earth BioGenome Project [ref.2, 3], the Vertebrate Genome Project [ref.4], the i5K Initiative [ref.5], the Ag100Pest Initiative [ref.6] などの様々なシーケンスイニシアチブで、リファレンスクオリティのアセンブリの基準を満たす高連続かつ高精度のコンティグアセンブリを支えるデータを作成するために優先的に用いられている方法である [ref.7, 8]。

 アダプターフィルタリングとリードトリミングは、イルミナショートリードデータを解析するパイプラインの一般的な側面であり、多くの既存ツール [ref.9, 10] や、アダプター汚染の可能性がアセンブリに与える影響を評価する研究 [ref.11, 12] がある。逆に、アセンブル前のアダプターフィルタリングは、HiFiデータ解析パイプラインの一般的なコンポーネントではなく、ほとんどのHiFi対応de novoゲノムアセンブルソフトウェアツールは、PacBio CCS解析の出力をアセンブリソフトウェアへの入力として使用することを推奨している。しかし、一般に公開されている55のPacBio HiFi配列のSRAを調査したところ、"PacBio Blunt Adapter" (UniVec database build 10.0, accession NGB00972.1) は55のCCSデータセット中53で一貫して見つかった。これらのデータのサブセットを3つの最も一般的なHiFiアセンブリプログラム(HiCanu [ref.13], HiFiASM [ref.14], PB-IPA [ref.15])でアセンブリしたところ、3つのアセンブリプログラムそれぞれで作成した最終アセンブリの一部で、アダプター配列のゲノムコンティグへの統合が検出された。そこで、HiFiリードをアセンブルする前の前処理として開発された、シンプルかつメモリ効率のよいアダプターフィルタリング手法であるソフトウェアHiFiAdapterFilt [ref.16]を紹介する。55の公開SRAデータセットのうち3つ(Anopheles gambiae, Drosophila ananassae, Vespa mandariniaの3種の昆虫)を用いて、このフィルタリングとアセンブリを実証している。このパイプラインで処理した結果、得られたアセンブリにはアダプターの混入がなく、アセンブリの連続性にも影響がなく、場合によっては入力リードデータセットにアダプターが存在するために生じたミスジョインを修正することができた(論文表1)。これらの結果から、HiFiリードのアセンブリ前のアダプターサニテーションステップが強く推奨され、アセンブリ前のリードプールにアダプター汚染が存在した場合の影響について考察する。

 

インストール

依存

  • BamTools
  • BLAST+

Optional:

  • pigz

Github

mamba create -n HiFiAdapterFilt -y
conda activate HiFiAdapterFilt
mamba install -c bioconda bamtools blast -y

#本体とデータベースにパスを通す
git clone https://github.com/sheinasim/HiFiAdapterFilt.git
cd HiFiAdapterFilt/
export PATH=$PATH:$PWD
export PATH=$PATH:$PWD/DB

> pbadapterfilt.sh -h

Usage: pbadapterfilt.sh [ -p sequence file Prefix ] [ -l minimum match Length to filter. Default=44 ] [ -m minimum Match percentage to filter. Default=97]  [ -t number of Threads for blastn. Default=8 ] [ -o Outdirectory prefix Default=. ]

ka

 

 

実行方法

カレントの PacBio BAMファイルを自動で認識する。

pbadapterfilt.sh

#
pbadapterfilt.sh -p <sequence file Prefix>

fastq.gzが書き出される。

 

引用

HiFiAdapterFilt, a memory efficient read processing pipeline, prevents occurrence of adapter sequence in PacBio HiFi reads and their negative impacts on genome assembly
Sheina B. Sim, Renee L. Corpuz, Tyler J. Simmonds & Scott M. Geib 
BMC Genomics volume 23, Article number: 157 (2022) 

 

参考

http://seqanswers.com/forums/showthread.php?t=41709

 

https://ucdavis-bioinformatics-training.github.io/2021-ASM-genome-assembly/markdown_docs/pacbio

 

関連