次世代シークエンシング(NGS)に基づくクロスサンプル比較や大規模メタアナリシスでは、リード中の汚染アダプターフラグメントの除去(すなわちアダプタートリミング)を含む、複製可能で普遍的なデータの前処理が必要となる。最新のアダプタートリマーは、各サンプルごとにアダプター候補配列を提供する必要があるが、それが利用できなかったり、リポジトリ(GEOやSRAなど)に誤って記録されたりすることもあり、大規模メタアナリシスは最適でないアダプタートリマーによって危険にさらされる。
この論文では、先験的なアダプタシーケンスを必要としない、高速で正確なアダプタ検出とトリミングアルゴリズムのセットを紹介する。これらのアルゴリズムは、SIMDとマルチスレッドを用いて最新のC +++に実装され、その速度を加速させている。著者らの実験とベンチマークは、アダプタシーケンスのヒントを与えられない実装(すなわち、EARRINGS)が、既存のアダプタトリマーよりも同等の精度と高いスループットに到達できることを示している。EARRRINGSは、大量のデータセットのメタアナリシスにおいて特に有用であり、あらゆるスケールの配列解析パイプラインに組み込むことができる。EARRINGSはオープンソースのソフトウェアで、https://github.com/jhhung/EARRINGSから入手できる。
インストール
ubuntu18.04LTSでビルドした。
依存
- g++-8 and cmake 3.10.0 or higher to build EARRINGS
- python3.7 or higher for the benchmarking
git clone https://github.com/jhhung/EARRINGS.git
cd EARRINGS/
mkdir build
cd build
cmake .. -DBUILD_TESTS=OFF -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=../stage
cmake --build . --target install
> ./EARRINGS -h
$ ./EARRINGS -h
*********************************************************************************
+--------+
|EARRINGS|
+--------+
EARRINGS v1.0.0 is an adapter trimmer with no a priori knowledge of adapter sequences.
Usage:
(1) Build index for reference sequence. This step is only apply to single-end ada-
pter detection.
> EARRINGS build -r ref_path -p index_prefix
(2) Adapter trimming
> EARRINGS single -p index_prefix --skewer input1.fq
> EARRINGS paired -i input1.fq -I input2.fq -t thread_num
See EARRINGS single/paired --help for more information about the parameters.
*********************************************************************************
実行方法
1、indexing(シークエンシングデータが対応するリファレンスゲノムに対して実行、シングルエンドのみ対応)
EARRINGS build -r ref.fa -p index
2、シングルエンドのfastqを指定する。
EARRINGS single -p index --skewer input1.fq
input1-trimmed.fastq とlogが出力される。
ペアエンドfastqの場合
EARRINGS paired -i input1.fq -I input2.fq -t 8
引用
EARRINGS: An Efficient and Accurate Adapter Trimmer Entails No a Priori Adapter Sequences
Ting-Husan Wang, Cheng-Ching Huang, Jui-Hung Hung
Bioinformatics, Published: 18 January 2021
関連
BBDuk