macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

PHYLUCE

 

 保存された領域、または超保存 (ultraconserved) された領域(以下、保存された遺伝子座 (conserved loci) )のエンリッチメントは、非モデル生物(Faircloth et al、2012、2013、2015)の複数の時間スケールでの普遍的なphylogenomic analysesを可能にする(Faircloth et al、2012; Smith et al、 2014)。このアプローチの強みは何千もの種から何千もの遺伝子座の配列データを収集する能力から得られ、Classes(>200–300 Ma)のような系統発生の巨大な裂け目を超えた系統比較から、populations(<0.5–5 Ma)のようなより小さい関係の進化的多様性のような系統比較を可能にすることにある。種の進化の歴史を推測することがデータ収集の目的である場合、その後の分析作業は一般的に次のようなものになる。(i)シーケンシングリードをアセンブリする。これは数十から数百の個体に及ぶかもしれない (ii)アセンブリされたサンプルごとにコンティグ間の推定オルソログを同定する。一方で推定されたパラログを除去する (iii)異なる個体、他の実験から含まれる個体または個々のゲノム配列から採取された保存された遺伝子座データを含むデータセットを容易に生成する; (iv)全セットに渡り、オルソログ由来のシーケンシングリードを同定し、exportする; (v)データをアラインメントさせ、場合によっては余分な領域をトリミングし、phylogenetic inferenceに備える。 (vi)アラインメントされたデータに関する要約統計を計算し、(vii)配列またはアラインメントデータにユーティリティ機能を実行して、種々の系統発生推論プログラムを用いた下流分析へ向けた準備をする。 PHYLUCE(pronounced ‘phy-loo-chee’)は、これらのタスクを保存されエンリッチされた遺伝子座に対して実行する、計算効率が良くインストールしやすい、初めてのオープンソースのソフトウェアパッケージである。

 

マニュアル

https://phyluce.readthedocs.io/en/latest/installation.html

 

 PHYLUCEに関するツイート

 

インストール

ubuntu16.04のanacondaminiconda2-4.3.30に導入した。

build and test the binaries available through conda using 64-bit operating systems that include:

依存

3rd-party dependencies and packages installed

- python
- abyss 1.5.2
- bcftools
- bedtools
- biopython
- bwa
- bx-python
- dendropy 3.12.3
- gblocks
- lastz
- mafft
- muscle
- pandas
- picard
- pysam
- pyvcf
- raxml
- samtools
- seqtk
- trimal
- trinity # [not osx]
- velvet
- illumiprocessor
- spades
- itero

本体 Github

#Bioconda (link)
conda create -n phyluce -c bioconda -y phyluce

> phyluce_assembly_get_fastq_lengths -h

$ phyluce_assembly_get_fastq_lengths -h

usage: phyluce_assembly_get_fastq_lengths [-h] --input INPUT [--csv]

 

Get summary (length) data from fastq

 

optional arguments:

  -h, --help     show this help message and exit

  --input INPUT  The directory of fastq files to summarize

  --csv          Give output in CSV

 

テストラン

Tutorial I: UCE Phylogenomics

1、サンプルの準備

mkdir uce-tutorial
cd uce-tutorial/
wget -O fastq.zip https://ndownloader.figshare.com/articles/1284521/versions/1

mkdir raw-fastq
mv fastq.zip raw-fastq
cd raw-fastq
unzip fastq.zip && rm fastq.zip
cd ../

 

2、リードQT

uce-tutorial/に以下の内容のconfigファイルを作成

cat >illumiprocessor.conf <<EOF 
# this is the section where you list the adapters you used. the asterisk
# will be replaced with the appropriate index for the sample.
[adapters]
i7:AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC*ATCTCGTATGCCGTCTTCTGCTTG
i5:AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT

# this is the list of indexes we used
[tag sequences]
BFIDT-166:GGAGCTATGG
BFIDT-016:GGCGAAGGTT
BFIDT-045:TTCTCCTTCA
BFIDT-011:CTACAACGGC

# this is how each index maps to each set of reads
[tag map]
Alligator_mississippiensis_GGAGCTATGG:BFIDT-166
Anolis_carolinensis_GGCGAAGGTT:BFIDT-016
Gallus_gallus_TTCTCCTTCA:BFIDT-045
Mus_musculus_CTACAACGGC:BFIDT-011

# we want to rename our read files something a bit more nice - so we will
# rename Alligator_mississippiensis_GGAGCTATGG to alligator_mississippiensis
[names]
Alligator_mississippiensis_GGAGCTATGG:alligator_mississippiensis
Anolis_carolinensis_GGCGAAGGTT:anolis_carolinensis
Gallus_gallus_TTCTCCTTCA:gallus_gallus
Mus_musculus_CTACAACGGC:mus_musculus

EOF

 

3、データのクリーニング。ここではillumiprocessor (github) が使われている(trimmomaticの並列処理ツール)。

illumiprocessor --input raw-fastq/ --output clean-fastq \
--config illumiprocessor.conf\ --cores 4

アダプターとlow qualityリードが除かれたシーケンシングデータはサブディレクトリのsplit-adapter-quality-trimmed/に出力される。

$ ls -alh clean-fastq/gallus_gallus/split-adapter-quality-trimmed/

total 100M

drwxr-xr-x 5 kazu kazu  170 Oct  8 03:33 .

drwxr-xr-x 6 kazu kazu  204 Oct  8 03:31 ..

-rw-r--r-- 1 kazu kazu 264K Oct  8 03:33 gallus_gallus-READ-singleton.fastq.gz

-rw-r--r-- 1 kazu kazu  49M Oct  8 03:33 gallus_gallus-READ1.fastq.gz

-rw-r--r-- 1 kazu kazu  52M Oct  8 03:33 gallus_gallus-READ2.fastq.gz

READ1とREAD2¥はペアエンドの順番が維持されているファイル。singletonはペアエンドの片方がQTで除かれてシングルになったファイル。

 

 4、アセンブリ。データのパスを示した以下のconfigファイルを作成。ここでは/data/uce-tutorial/で作業したので以下のようになっている。

cat >assembly.conf <<EOF 
[samples]
alligator_mississippiensis:/data/uce-tutorial/clean-fastq/alligator_mississippiensis/split-adapter-quality-trimmed/
anolis_carolinensis:/data/uce-tutorial/clean-fastq/anolis_carolinensis/split-adapter-quality-trimmed/
gallus_gallus:/data/uce-tutorial/clean-fastq/gallus_gallus/split-adapter-quality-trimmed/
mus_musculus:/data/uce-tutorial/clean-fastq/mus_musculus/split-adapter-quality-trimmed/
EOF

#de novo assembly
phyluce_assembly_assemblo_trinity \
--conf assembly.conf \
--output trinity-assemblies \
--clean \
--cores 12

エラーが出て終了する。 修正できたら追記します。

  

引用
PHYLUCE is a software package for the analysis of conserved genomic loci
Faircloth BC

Bioinformatics. 2016 Mar 1;32(5):786-8