macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

メタゲノムデータからホストゲノムなどのコンタミを除く作業を自動化するラッパーツール KneadData

バクテリアのメタゲノム解析では、度々ホストゲノムのコンタミリードがシーケンスされてしまうことがある。KneadDataはそのようなホスト由来のリードや低クオリティのリードをフィルタリングするために設計されたツールである。

 

Trimmomaticでのクオリティトリミング-> ホストゲノムへのアライメント -> アライメントされなかったリードの抽出、の順番で解析される。 

公式サイト

https://bitbucket.org/biobakery/kneaddata/wiki/Home

  

インストール 

依存

  • Trimmomatic (version == 0.33) (automatically installed)
  • Bowtie2 (version >= 2.2) (automatically installed)
  • Python (version >= 2.7)
  • Java Runtime Environment TRF (optional)
  • Fastqc (optional)
  • SAMTools (only required if input file is in BAM format)

本体

brewでインストールできる。

brew tap biobakery/biobakery
brew install kneaddata

またはpipでインストールする

pip install kneaddata

 

ラン

初めにリファレンスゲノムのインデックスを作成する。ヒトやマウスのゲノムならKneadDataのコマンドからbowite2のindex作成済みゲノムをダウンロードできる。

mkdir genome
kneaddata_database --download human_genome bowtie2 genome/ #3.44GBある

 

fastaからindexを作成するなら次のように打つ。

bowtie2-build Homo_sapiens.fasta -o Homo_sapiens_db test
#作成したindexをディレクトリに収納する
mkdir genome_index
mv test* genome_index/

 

シングルリード。作成したindexのフォルダを指定してランする。

kneaddata --i seq.fastq --reference-db genome_index/ --output kneaddata_output -t 20
  • -t number of threads [ Default : 1 ]  
  • -i input FASTQ file (add a second argument instance to run with paired input files)
  • -o directory to write output files
  • -d location of reference database (additional arguments add databases)

 

ペアリード。

kneaddata --i seq1.fastq --i seq2.fastq -db genome_index/ --output kneaddata_output -t 20

 

Trimmomaticがないと言われたら --trimmomatic フラグをつけて trimmomaticのディレクトリを指定する。面倒ならwgetでダウンロードしておいておけばいい。 

wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.33.zip
unzip Trimmomatic-0.33.zip

#trimmomaticを指定してラン
kneaddata --input seq1.fastq --input seq2.fastq -db genome_index/ --output kneaddata_output -t 20 --trimmomatic Trimmomatic-0.33/

 

終わると複数のfastqとlogが出力される。

~kneaddata.trimmed.fastq: クオリティトリミングされたリード。

~kneaddata.fastq: リファレンスにアライメントされなかったリード(クオリティコントロール済みのfastq)。

~kneaddata_$DATABASE_bowtie2_contam.fastq: リファレンス(ホストゲノムなど)にアライメントされたリード。

 

 

 

 

 

 

引用

https://github.com/LangilleLab/microbiome_helper/wiki/Metagenomics-Sequencing-Pre-processing