macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

オックスフォードナノポアシークエンシングリードのトリミングツール ProwlerTrimmer

 

 トリミングおよびフィルタリングツールは、配列アラインメントの精度を高め、結果の信頼性を向上させるため、DNAシーケンス解析において有用である。オックスフォード・ナノポア・テクノロジー(ONT)のトリミングおよびフィルタリングツールは、現在のところ初歩的なもので、一般的にはリード全体の平均品質に基づいてリードをフィルタリングしているだけである。これでは、高品質な配列の領域を含むリードが廃棄されてしまう。ここでは、ショートリードデータのトリミングに使用されるアルゴリズムにヒントを得て、ウィンドウベースのアプローチを使用するトリマー「Prowler」を提案する。重要な事は、オプションでトリミングされたセクションをNsに置き換えることで、位相とリードの長さの情報を保持することである。
 Prowlerを哺乳類とバクテリアのデータセットに適用し、アラインメントとアセンブリそれぞれに対する効果を評価した。Nanofiltでフィルタリングしたデータと比較して、Prowlerでトリミングしたデータのアラインメントはエラー率が低く、マッピングされたリードの数も多かった。Prowlerでトリミングされたデータのアセンブリは、Nanofiltでフィルタリングされたデータよりもエラー率が低かったが、アセンブリの連続性が少し(some)犠牲になっていた。

 

 

インストール

Github

git clone https://github.com/ProwlerForNanopore/ProwlerTrimmer.git
cd ProwlerTrimmer/

python TrimmerLarge.py -h

$ python TrimmerLarge.py -h

Usage: TrimmerLarge.py [options]

 

Options:

  -h, --help            show this help message and exit

  -f FILE, --file=FILE  the name of the file you want to trim, wihtout the

                        folderpath

  -i DIRECTORY, --infolder=DIRECTORY

                        the folderpath where your file to be trimmed is

                        located (default = cwd)

  -o DIRECTORY, --outfolder=DIRECTORY

                        the folderpath where your want to save the trimmed

                        file (default = cwd)

  -w INT, --windowsize=INT

                        change the size of the trimming window (default=

                        100bp)

  -l INT, --minlen=INT  change the minimum acceptable numer of bases in a read

                        (default=100)

  -m [S/D], --trimmode=[S/D]

                        select trimming algorithm: S for static  or D for

                        dynamic (default=)

  -q INT, --qscore=INT  select the phred quality score trimming threshold

                        (default=7)

  -d INT, --datamax=INT

                        select a maximum data subsample in MB (default=0,

                        entire file))

  -r [.fasta/.fastq], --outformat=[.fasta/.fastq]

                        select output format of trimmed file (fastq or fasta)

                        (default=.fastq)

  -c [L/T/LT], --clip=[L/T/LT]

                        select L to clip leading Ns, T to trim trialing Ns and

                        LT to trim both (default=LT)

  -g [U0/F1/F2...], --fragments=[U0/F1/F2...]

                        select fragmentation mode (default=U0)

 

 

実行方法

fastqファイルを指定するか、fastqファイルを含むディレクトリを指定する。

python TrimmerLarge.py -i ONT.fq -w 1000 -l 1000 -o outprefix
  • -f     the name of the file you want to trim, wihtout the folderpath
  • -r [.fasta | .fastq]     select output format of trimmed file (fastq or fasta)   (default=.fastq)

  •  -i     the folderpath where your file to be trimmed is located (default = cwd)

  • -w    change the size of the trimming window (default= 100bp)

  • -l    change the minimum acceptable numer of bases in a read (default=100) 

     

 

引用

Prowler: A novel trimming algorithm for Oxford Nanopore sequence data
Simon Lee,  Loan T Nguyen,  Ben J Hayes,  Elizabeth Ross
Bioinformatics, Published: 02 September 2021

 

関連