アンプリコンシーケンスのペアエンドリードマージツール MeFiT

　次世代シークエンシング技術は,その開始以来,研究者が複雑なシステムから多面的な生物学的情報を抽出する方法を変え、ヒト疾患,環境科学、進化科学などの分野における研究を促進してきた。16S rRNA小サブユニット遺伝子、またはより一般的にはその一部のシークエンシングによる細菌生態学の探究は、様々なヒト/環境マイクロバイオーム研究[ref.2、3、4、5、6]のゴールドスタンダード技術として使用されている。このように、原核生物の16S rRNA遺伝子の異なる部分の予測可能な保存と変動性は、細菌ソースの高分解能同定と定量情報を提供するために利用されてきた [ref.6]。系統発生分析および定量のためのこの戦略は、従来のクローニングおよびシーケンシングまたはRT-PCRに基づくアプローチよりも有意に効率的であることが証明されている。これらの大規模な並列処理が可能で、費用対効果が高く、処理能力の高いシークエンシング技術は、現在では1回の実行で最大15Gbのゲノムデータを生成することができる [ref.7]。これらのNGSシステムによって生成されるデータの膨大な量および複雑さは、下流の分析を合理化するバイオインフォマティクスツールの開発を必要とする。

（一段落省略）

　ペアードエンドシーケンシングでは、正方向および逆方向リードの正確なマージは、特に微生物分類学的プロファイリングを含むが、これに限定されず多数の下流分析の結果に影響を及ぼす重要な第一段階である。各種ツール;たとえば、SHERA [ref.8]、FLASH [ref.9]、PANDAseq[ref.10]、COPE[ref.11]などは、ペアエンドデータをマージするために開発された。これらのツールは一般に、ペアのリードの末端のリード間の最良のオーバーラップを識別するためにシークエンスアラインメントを行う。クオリテイィスコアを考慮することでミスマッチ基準を解決し、単にクオリティの高い方にクオリティの低い方を置き換える。最近（論文執筆時点）、新しい方法CASPERが提案された[ref.12]。CASPERはクオリティスコアの差が有意でない場合を除いて,ミスマッチを解決するために伝統的なクオリティスコアに基づく方法を使用する。（一部省略）

　16S rRNA微生物プロファイリングの精度はシーケンシングデータの前処理精度に大きく依存する。そこで,Illumina MiSeqプラットフォームからのオーバーラップするペアエンドリードを効率的にマージし、それらをクオリティフィルタリングするMeFiTと名付けたツールを開発した。MeFiTは、ペアエンドリードをマージするためにCASPER[ref.12]を呼び出し、注意深いクオリティフィルタリングを含め、拡張する。

（以下略）

The MeFiT pipeline. 論文より転載

インストール

ubuntu16.0.4のminiconda2.4.0.5環境でテストした。

依存

Python version 2.7 (version 3.0 or greater may not work)
numpy
HTSeq
CASPER (Context-Aware Scheme for Paired-End Read)
Jellyfish mer counter

conda install -y numpy
conda install -c bioconda -y HTSeq
conda install -c bioconda -y bioconductor-casper
conda install -c bioconda -y jellyfish #（version2系にする）

casperが入らなければ直接入れてください（一番下のリンク参照）。

本体　Github

git clone https://github.com/nisheth/MeFiT.git
cd MeFiT/

>./mefit -h

$ ./mefit -h

usage: mefit [-h] -s S -r1 R1 -r2 R2 [-p P] [-nonovlp] [-n N]

(-avgq AVGQ | -meep MEEP)

MeFiT - developed by Hardik I. Parikh, PhD

MeFiT - Merging and Filtering Tool for paired-end reads

---------------------------------------------------------

For detailed information about the command -

mefit -h

---------------------------------------------------------

optional arguments:

-h, --help show this help message and exit

-s S Sample Name

-r1 R1 Forward Read - Sample R1 fastq

-r2 R2 Reverse Read - Sample R2 fastq

-p P CASPER parameter file, tab-delimited

-nonovlp Save non-overlapping reads, default=False

-n N Length of Ns to insert between non-overlapping reads for

merging, default=15

-avgq AVGQ Average-Q threshold, default=20

-meep MEEP meep-score threshold, default=1.0

実行方法

ペアエンドfastqを指定する。

mefit -s sample -r1 sample_R1.fastq -r2 sample_R2.fastq -avgq 20

-avgq Average-Q threshold, default=20
-r1 Forward Read - Sample R1 fastq
-r2 Reverse Read - Sample R2 fastq
-meep meep-score threshold, default=1.0

オーバーラップしていないペアエンドもシュードマージする。N=15-bpで連結。

mefit -s sample -r1 sample_R1.fastq -r2 sample_R2.fastq \
 -avgq 20 -nonovlp -n 15

引用
MeFiT: merging and filtering tool for illumina paired-end reads for 16S rRNA amplicon sequencing
Parikh HI, Koparde VN, Bradley SP, Buck GA, Sheth NU

BMC Bioinformatics. 2016 Dec 1;17(1):491