macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ONTのアーティファクトを取り除く CarrierSeq

 

 環境メタゲノムシーケンシングは、多くの課題を提起する。第一に、複雑な土壌マトリックスと強靭な生物は、デオキシリボ核酸(DNA)とリボ核酸RNA)の抽出を妨げる[論文より ref.1]。第2に、低バイオマス試料は、汚染の可能性も高める、さらなる抽出および濃縮ステップを必要とする[ref.2]。第3に、ターゲット増幅(例えば、16S rRNAアンプリコン)が分類学的分解能を低下させる一方で、全ゲノム増幅は集団にバイアスを起こすことがある[ref.3]。これらの課題に対処するために、著者らは低バイオマス難分解性サンプルに適合し、溶解するのが困難な生物の抽出プロトコールを開発した[ref.5](pubmed)。 Bacillus subtilisの難溶性胞子を用いて開発されたこれらのプロトコールは、遠心分離を行わずに2×10 5細胞/ gの土壌を含む50mgのサンプルから少なくとも5%の抽出収率を達成している[ref.6]。さらに、増幅バイアスおよびさらなる汚染を回避するため、低入力量の標的DNA(枯草菌)をシャトルするゲノム担体(腸内細菌ファージλ) [ref7]を使い、ライブラリー調製および理想的なstoichiometryを調べる実験を行った。このアプローチにより、Oxford Nanopore Technologies(ONT)Minionシーケンサーを使い、1000ngのラムダDNAを用いて調製したBacillus subtilis DNAを0.2ngまで検出することができた。

 この論文では、キャリア配列決定法を用いて、標的DNAをゲノム担体で調製して低入力DNAを配列し、理想的なライブラリー調製およびstoichiometryで増幅せずにシーケンシングする方法を採用する。 次に、シーケンス解析ワークフローであるCarrierSeqを使用して、ゲノムキャリアからの低入力ターゲットリードを特定する。 著者らは1000ngのエンテロバクテリアファージλDNAのバックグラウンドにおける0.2ngのBacillus subtilis ATCC 6633 DNAの組み合わせからの配列決定によりCarrierSeqを実験的に試験した。キャリアのリードや低クオリティでlow complexityなリード(ONTのジャンク)をフィルタリグした後、ターゲットリード(枯草菌)、コンタミネーションリード、および high quality noise reads(HQNR)を検出した。 これらのリードは、それらが特定のチャネル(細孔)と関連しており、ナノポア配列決定プロセスのアーティファクトのように見える。

 CarrierSeqはbwa-mem [ref.8]を実装して、最初にすべてのリードをゲノムキャリアにマップし、次にsamtools [9]とseqtk [10]を使用してマッピングされていないリードを抽出する。 その後、CarrierSeqは品質スコアのしきい値を定義して(phread quality score ≥ 9)、低複雑度のリード[11]をfqtrim [12]を使い破棄する。 このアンマップかつフィルタリングされて残ったリードセットは、reads of interest(ROI)とラベルされ、ROIは理論的にはターゲットリードと汚染由来リードの可能性がある。 ただし、ROIには、クオリティスコアと複雑さのフィルタは満たしてしまうが、いかなるデータベースとも一致しない、特定のチャネルからの不均衡な読み取りとして定義されるhigh-quality noise reads(HQNR)も含まれる。 リードをPoisson arrival processとして扱うことで、CarrierSeqは期待されるROIチャネルの分布をモデル化し、リード/チャネルのしきい値(xcrit)を超えるチャネルからのデータを拒否する。

 

example dataset

https://figshare.com/articles/Example_carrier_sequencing_fastQ_data_set_for_CarrierSeq/5868825/1

 

インストール

依存

dockerコンテナで導入する。

docker pull mojarro/carrierseq:latest

#イメージの確認
docker images

#コンテナの作成と起動
docker run mojarro/carrierseq

#ここでは共有ディレクトリ~/nanoporeをコンテナの/homeと共有指定して起動する。
docker run -i -t -v ~/nanopore/:/home mojarro/carrierseq 

#抜けるには"control + PQ"。起動しているか確認は"docker ps -a"。
#、再度ログインするには"docker attach <CONTAINER ID>"

本体  Github

https://github.com/amojarro/carrierseq

git clone https://github.com/amojarro/carrierseq.git
cd carrierseq/
chmod +x carrierseq.sh

> ./carrierseq.sh

$ ./carrierseq.sh 

Usage: carrierseq.sh options [-i INPUT] [-r REFERENCE] [-o OUTPUT] are required. Use -h for help

user-no-MacBook-Pro-2:carrierseq user$ ./carrierseq.sh -h

./carrierseq.sh: illegal option -- h

Usage: carrierseq.sh [-i INPUT] [-r REFERENCE] [-o OUTPUT]...

CarrierSeq requires bwa, samtools, seqtk, fqtrim, and biopython.

Reads to be analyzed must be compiled into a single fastq file and the reference genome must be in fasta format.

     -i          All reads to be analyzed *.fastq

     -r          Carrier reference genome *.fasta

     -t          Number of threads used for BWA mapping (default = 1)

     -q          User-defined quality (phred) score (default = 9)

     -p          User-defined p-value 

                 (default = ~0.0001 or 0.05 / 512 active channels)

     -o          Output directory

 

 

ラン

./carrierseq.sh -i inout.fastq -r ref.fasta -o out -t 24 -q 9
  • -i          All reads to be analyzed *.fastq
  • -r          Carrier reference genome *.fasta
  • -t          Number of threads used for BWA mapping (default = 1)
  • -q         User-defined quality (phred) score (default = 9)
  • -p         User-defined p-value (default = ~0.0001 or 0.05 / 512 active channels)

 進捗とともに新しいディレクトリが作成され、最終的に合計9つのディレクトリができる。

f:id:kazumaxneo:20180502161524j:plain

07がhqnrsとして定義された、クオリティが高くlow compxilityな配列構造になっていないが、いかなるデータベースとも相同性を示さないおそらくジャンクの配列である。ROIとして残ったfastqのうち、しきい値を超えたチャネルからの出力がここに振り分けられる。

 

 論文の著者らの実験では、0.2 ngの B. subtilis DNAを1µgのLambda DNAと混ぜ、MinionのR.94フローセルで48hシーケンスしAlbacore v1でベースコールしている。スループットは6,4GBの717,432リードで、そこからLambdaゲノムにマッピングして、ROIを1811リード得ている。そのうちhqnrsと判定されたリードは1179で、True positive(08のディレクトリ)は632リードだった。自分でもテストデータをダウンロードして、CarrierSeqを使いhqnrsを抽出し、blastn解析してみた。数リードだけE.coliゲノムと高い相同性を示したが、およそ8-9割のリードはblastnでヒットした配列がゼロだった。

 hqnrsが本当にアーティファクトのリードであるならば、低クオリティなリードとして出力されるべきだが、Oxfordナノポアはタンパク質をセンサーの中心に使っているので、均一なフローセル作成が難しく歩留まりは高くない。したがって厳密なクオリティ評価も困難と思われる。ONTのシーケンス解析では、この論文の手法のようなクオリティスコアだけに依存しないpreprocessing手法を考える必要がある。本当のシーケンスリードであることを担保しないまま進めると、環境ゲノムから得た新種のゲノムだと考えていた配列が、実はジャンクだったということにもなりかねない。そしてこれはデータベースの汚染を引き起こす問題でもある。

 

引用

CarrierSeq: a sequence analysis workflow for low-input nanopore sequencing.

BMC Bioinformatics. 2018.

Mojarro A, Hachey J, Ruvkun G, Zuber MT, Carr CE