トリミングおよびフィルタリングツールは、配列アラインメントの精度を高め、結果の信頼性を向上させるため、DNAシーケンス解析において有用である。オックスフォード・ナノポア・テクノロジー(ONT)のトリミングおよびフィルタリングツールは、現在のところ初歩的なもので、一般的にはリード全体の平均品質に基づいてリードをフィルタリングしているだけである。これでは、高品質な配列の領域を含むリードが廃棄されてしまう。ここでは、ショートリードデータのトリミングに使用されるアルゴリズムにヒントを得て、ウィンドウベースのアプローチを使用するトリマー「Prowler」を提案する。重要な事は、オプションでトリミングされたセクションをNsに置き換えることで、位相とリードの長さの情報を保持することである。
Prowlerを哺乳類とバクテリアのデータセットに適用し、アラインメントとアセンブリそれぞれに対する効果を評価した。Nanofiltでフィルタリングしたデータと比較して、Prowlerでトリミングしたデータのアラインメントはエラー率が低く、マッピングされたリードの数も多かった。Prowlerでトリミングされたデータのアセンブリは、Nanofiltでフィルタリングされたデータよりもエラー率が低かったが、アセンブリの連続性が少し(some)犠牲になっていた。
インストール
git clone https://github.com/ProwlerForNanopore/ProwlerTrimmer.git
cd ProwlerTrimmer/
> python TrimmerLarge.py -h
$ python TrimmerLarge.py -h
Usage: TrimmerLarge.py [options]
Options:
-h, --help show this help message and exit
-f FILE, --file=FILE the name of the file you want to trim, wihtout the
folderpath
-i DIRECTORY, --infolder=DIRECTORY
the folderpath where your file to be trimmed is
located (default = cwd)
-o DIRECTORY, --outfolder=DIRECTORY
the folderpath where your want to save the trimmed
file (default = cwd)
-w INT, --windowsize=INT
change the size of the trimming window (default=
100bp)
-l INT, --minlen=INT change the minimum acceptable numer of bases in a read
(default=100)
-m [S/D], --trimmode=[S/D]
select trimming algorithm: S for static or D for
dynamic (default=)
-q INT, --qscore=INT select the phred quality score trimming threshold
(default=7)
-d INT, --datamax=INT
select a maximum data subsample in MB (default=0,
entire file))
-r [.fasta/.fastq], --outformat=[.fasta/.fastq]
select output format of trimmed file (fastq or fasta)
(default=.fastq)
-c [L/T/LT], --clip=[L/T/LT]
select L to clip leading Ns, T to trim trialing Ns and
LT to trim both (default=LT)
-g [U0/F1/F2...], --fragments=[U0/F1/F2...]
select fragmentation mode (default=U0)
実行方法
fastqファイルを指定するか、fastqファイルを含むディレクトリを指定する。
python TrimmerLarge.py -i ONT.fq -w 1000 -l 1000 -o outprefix
- -f the name of the file you want to trim, wihtout the folderpath
-
-r [.fasta | .fastq] select output format of trimmed file (fastq or fasta) (default=.fastq)
-
-i the folderpath where your file to be trimmed is located (default = cwd)
-
-w change the size of the trimming window (default= 100bp)
-
-l change the minimum acceptable numer of bases in a read (default=100)
引用
Prowler: A novel trimming algorithm for Oxford Nanopore sequence data
Simon Lee, Loan T Nguyen, Ben J Hayes, Elizabeth Ross
Bioinformatics, Published: 02 September 2021
関連