macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

rRNAのアンプリコンシーケンスのトリミングを行う FIGARO

 

 マイクロバイオーム研究は、巨視的世界にとっての微生物コミュニティの重要性についての途方もない洞察を提供し続けている。ハイスループットDNAシーケンシング技術(すなわち、次世代シーケンス)は、微生物分類群を同定し、生物学的および環境試料の多様性および組成を計算することができるバイオインフォマティクスツールと組み合わせると、微生物集団の費用効果の高い迅速評価を可能にした。原核生物種および真核生物種をそれぞれ同定するために16Sおよび18S rRNA遺伝子配列がそれぞれ使用されるリボソームRNA遺伝子シーケンシングは、現在、マイクロバイオーム分析において使用されている最も広く使用されている技術の1つである。これらの配列の生物情報学的分析の前に、配列自体の予想されるエラーが最小化される一方で、トリミング後の配列情報が最大化されるようにトリミングパラメータを設定しなければならない。このアプリケーションノートでは、FIGARO:クオリティトリミングおよびフィルタリングした後のリード保持を最大化するように設計されたPythonベースのアプリケーションについて説明する。 FIGAROは、再現性を高め、DADA2ベースのパイプラインのトリミングパラメータ選択における試行錯誤を最小限に抑えるように設計されており、ペアエンドオーバーラップが必要な場合にも、トリミングパラメータの最適化および他のパイプラインのシーケンスエラーの最小化に役立つ。

  ユーザーは、アンプリコンの全長と、トリムされていないペアエンドデータリードを含むフォルダーをFASTQ形式で提供する必要がある。オプションの入力には、出力ファイル名指定、入力ディレクトリと出力ディレクトリ指定、FASTQファイルのサブサンプリングレート、ペアエンドリード間の最小オーバーラップ、およびテストされた各位置でのフィルタリングに使用する予想エラー率が含まれる。

 

 インストール

ubuntu16.04のpython3.6.3環境でテストした(docker使用、ホストOS ubuntu18.04)。

本体 Github

docker イメージをビルドする。

git clone https://github.com/Zymo-Research/figaro.git
cd figaro
docker build -t figaro .

> python3 figaro.py -h

# python3 figaro.py -h

usage: figaro.py [-h] [-o OUTPUTDIRECTORY] -a AMPLICONLENGTH -f

                 FORWARDPRIMERLENGTH -r REVERSEPRIMERLENGTH

                 [-i INPUTDIRECTORY] [-n OUTPUTFILENAME] [-m MINIMUMOVERLAP]

                 [-s SUBSAMPLE] [-p PERCENTILE]

 

optional arguments:

  -h, --help            show this help message and exit

  -o OUTPUTDIRECTORY, --outputDirectory OUTPUTDIRECTORY

                        Directory for outputs

  -a AMPLICONLENGTH, --ampliconLength AMPLICONLENGTH

                        Length of amplicon (not including primers)

  -f FORWARDPRIMERLENGTH, --forwardPrimerLength FORWARDPRIMERLENGTH

                        Length of forward primer

  -r REVERSEPRIMERLENGTH, --reversePrimerLength REVERSEPRIMERLENGTH

                        Length of reverse primer

  -i INPUTDIRECTORY, --inputDirectory INPUTDIRECTORY

                        Directory with Fastq files to analyze

  -n OUTPUTFILENAME, --outputFileName OUTPUTFILENAME

                        Output file for trim site JSON

  -m MINIMUMOVERLAP, --minimumOverlap MINIMUMOVERLAP

                        Minimum overlap between the paired-end reads

  -s SUBSAMPLE, --subsample SUBSAMPLE

                        Subsampling level (will analyze approximately 1/x

                        reads

  -p PERCENTILE, --percentile PERCENTILE

                        Percentile to use for expected error model

 

 

実行方法

docker container run --rm -e AMPLICONLENGTH=[amplicon length] -e FORWARDPRIMERLENGTH=[forward primer length] \
-e REVERSEPRIMERLENGTH=[reverse primer length] -v /path/to/fastqs:/data/input \
-v /path/to/output:/data/output figaro

エラーになる。改善できたら追記します。

 

引用

FIGARO: An efficient and objective tool for optimizing microbiome rRNA gene trimming parameters
Michael M. Weinstein, Aishani Prem, Mingda Jin, Shuiquan Tang, Jeffrey M. Bhasin

bioRxiv preprint first posted online Apr. 16, 2019