macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

バクテリアのRNA seq自動解析パイプライン SPARTA

 

 RNA seq実験の分析フローには多くの工程が含まれる(クオリティチェック、マッピング定量、統計を使った発現変動遺伝子の検出)。これら RNA-seq分析ワークフローには多数のツールが発表されているが、各ステップで選択できるツールが多数あるため、適したツールを選択し、一貫した分析パイプラインに統合する作業は、バイオインフォマティクス経験が限られた微生物学者にとっては簡単な作業ではない。
 SPARTAは、シングルエンドのイルミナのリファレンスベースのRNA seq自動解析アプリケーション。アダプターの読み取りと除去、リファレンスへのマッピング定量、発現変動遺伝子の分析、バッチ効果のチェックを自動で行い、クオリティレポート、P valueとFDRつきの変動遺伝子のリスト、散布図を出力する。

以下のようなワークフローで解析が行われる。

f:id:kazumaxneo:20180227202955j:plain

公式HPより転載

 

mac tutorial

https://github.com/abramovitchMSU/SPARTA_Docs_and_Tutorial/blob/master/docs/source/mactut.rst#id15

linux tutorial

http://sparta.readthedocs.io/en/latest/lintut.html

 

インストール

上のmac tutorialリンクの頭のほうにあるDownload the workflow: SPARTA for Macからダウンロードする。ただしこちらの環境ではedgeRのインストールのあたりでバグを吐いたので、linux tutorialより SPARTA for Linuxをダウンロードしてubuntu14.04でlinux版をランした。

 

ラン

1、チュートリアルに従ってランする。ここでは付属のデータExampleData(2 replicatesの4条件)を使う。ダウンロードしたフォルダをubuntuのデスクトップに移動する。また、ExampleDataをデスクトップにコピーする。

2、ターミナルで本体のフォルダ内に移動する。

cd ~/Desktop/SPARTA_Linux-master

3、以下のように打って、インストールを完了させる。

bash install_dependencies.sh

4、 解析を始める。

python SPARTA.py

すぐにメッセージが出る。

Is the RNAseq data in a folder on the Desktop? (Y or N):

Y と打つ。

What is the name of the folder on the Desktop containing the RNAseq data?:

ExampleData と打つ。デスクトップにRNAseq_Dataというフォルダが出来、その中の解析の日付のディレクトリで作業が行われる。

 

5、自動でクオリティトリミングが始まり、fastqcでトリミング後のレポートが出力される。

 

6、bowtieを使いリファレンスにマッピングが行われる。出力のsamが表示される。テストデータなら以下の8つが表示されるはずである。

f:id:kazumaxneo:20180227204237j:plain

7、条件の数を聞かれる。

How many conditions are there?:

テストデータは2 replicatesなので、4 と打ちリターン。次の質問もYと打つ。

 

8、この時点でreplicatesのデータがどれなのかを指示する必要がある。画面に表示されるが解析ディレクトリのDEanalysis/にconditions_input.txtができているはず。このファイルを開いて編集する。

Reference_Condition_Files:
Experimental_Condition_2_Files:
Experimental_Condition_3_Files:
Experimental_Condition_4_Files:

編集前は上のようになっている。各行が1つの条件である。コロンのあとに、サンプル名を","で挟んで記載する。テストデータでは以下のようになる。

Reference_Condition_Files: mapgly7a.sam,mapgly7b.sam
Experimental_Condition_2_Files:mapgly5a.sam,mapgly5b.sam
Experimental_Condition_3_Files:mappyr7a.sam,mappyr7b.sam
Experimental_Condition_4_Files:mappyr5a.sam,mappyr5b.sam

 コンマで区切りreplicatesを全て記載する。公式ではコンマの後にスペースを入れていたが、スペースがあるとエラーになったので除いた。編集が済んだら保存して閉じる。(macで実行しているなら、リッチテキストフォーマットのTexteditなどで編集しないように注意する。プレーンテキストのエディタ(Miなど)などを使う)。

 

9、HTSeqでsamからリードカウントが実行され、続いてedgeRで正規化、2群間比較が実行される。DE(differential gene) analysisのフォルダには以下のようなファイルが出力される。

f:id:kazumaxneo:20180227205910j:plain

3つの種類の分析が行われているはずである。

  1. Differential gene expression tables
  2. MDS plot (somewhat analogous to a principle component analysis plot) which will show whether your replicates group together and treatment groups separate based on the treatment
  3. BCV plot (biological coefficient of variation) to look at gene level variation between samples

 

1、Differential gene expression tables(全組み合わせで実行されるのでcsvは6ファイルある)

f:id:kazumaxneo:20180227210055j:plain

 

2、MDS plot

f:id:kazumaxneo:20180227210306p:plain

3、BCV plot

f:id:kazumaxneo:20180227210358p:plain

 

実際にデータを解析するには、1つのディレクトリにシングルエンドのfastq、リファレンスのFASTA、リファレンスのgtfを配置する必要があります。SPARTAはディレクトリ内のファイルを拡張子で見分け(fastaやfaならリファンレスFASTAファイルというふうに)、自動で解析をスタートします。公式マニュアルには、ターミナル経験が浅い、または初めての人も理解できるよう分かりやすい説明がされています。

https://github.com/abramovitchMSU/SPARTA_Docs_and_Tutorial/blob/master/docs/source/mactut.rst#id15

 

 引用

SPARTA: Simple Program for Automated reference-based bacterial RNA-seq Transcriptome Analysis

Benjamin K. Johnson, Matthew B. Scholz, Tracy K. Teal and Robert B. Abramovitch

BMC Bioinformatics. 2016 Feb 4;17:66.