バクテリアのRNA seq自動解析パイプライン SPARTA

　RNA seq実験の分析フローには多くの工程が含まれる（クオリティチェック、マッピング、定量、統計を使った発現変動遺伝子の検出）。これら RNA-seq分析ワークフローには多数のツールが発表されているが、各ステップで選択できるツールが多数あるため、適したツールを選択し、一貫した分析パイプラインに統合する作業は、バイオインフォマティクス経験が限られた微生物学者にとっては簡単な作業ではない。
　SPARTAは、シングルエンドのイルミナのリファレンスベースのRNA seq自動解析アプリケーション。アダプターの読み取りと除去、リファレンスへのマッピング、定量、発現変動遺伝子の分析、バッチ効果のチェックを自動で行い、クオリティレポート、P valueとFDRつきの変動遺伝子のリスト、散布図を出力する。

以下のようなワークフローで解析が行われる。

f:id:kazumaxneo:20180227202955j:plain

公式HPより転載

mac tutorial

https://github.com/abramovitchMSU/SPARTA_Docs_and_Tutorial/blob/master/docs/source/mactut.rst#id15

linux tutorial

http://sparta.readthedocs.io/en/latest/lintut.html

インストール

上のmac tutorialリンクの頭のほうにあるDownload the workflow: SPARTA for Macからダウンロードする。ただしこちらの環境ではedgeRのインストールのあたりでバグを吐いたので、linux tutorialより SPARTA for Linuxをダウンロードしてubuntu14.04でlinux版をランした。

ラン

１、チュートリアルに従ってランする。ここでは付属のデータExampleData（2 replicatesの４条件）を使う。ダウンロードしたフォルダをubuntuのデスクトップに移動する。また、ExampleDataをデスクトップにコピーする。

２、ターミナルで本体のフォルダ内に移動する。

cd ~/Desktop/SPARTA_Linux-master

３、以下のように打って、インストールを完了させる。

bash install_dependencies.sh

４、解析を始める。

python SPARTA.py

すぐにメッセージが出る。

Is the RNAseq data in a folder on the Desktop? (Y or N):

Y と打つ。

What is the name of the folder on the Desktop containing the RNAseq data?:

ExampleData と打つ。デスクトップにRNAseq_Dataというフォルダが出来、その中の解析の日付のディレクトリで作業が行われる。

５、自動でクオリティトリミングが始まり、fastqcでトリミング後のレポートが出力される。

６、bowtieを使いリファレンスにマッピングが行われる。出力のsamが表示される。テストデータなら以下の８つが表示されるはずである。

f:id:kazumaxneo:20180227204237j:plain

７、条件の数を聞かれる。

How many conditions are there?:

テストデータは2 replicatesなので、4 と打ちリターン。次の質問もYと打つ。

８、この時点でreplicatesのデータがどれなのかを指示する必要がある。画面に表示されるが解析ディレクトリのDEanalysis/にconditions_input.txtができているはず。このファイルを開いて編集する。

Reference_Condition_Files:
Experimental_Condition_2_Files:
Experimental_Condition_3_Files:
Experimental_Condition_4_Files:

編集前は上のようになっている。各行が１つの条件である。コロンのあとに、サンプル名を","で挟んで記載する。テストデータでは以下のようになる。

Reference_Condition_Files: mapgly7a.sam,mapgly7b.sam
Experimental_Condition_2_Files:mapgly5a.sam,mapgly5b.sam
Experimental_Condition_3_Files:mappyr7a.sam,mappyr7b.sam
Experimental_Condition_4_Files:mappyr5a.sam,mappyr5b.sam

コンマで区切りreplicatesを全て記載する。公式ではコンマの後にスペースを入れていたが、スペースがあるとエラーになったので除いた。編集が済んだら保存して閉じる。（macで実行しているなら、リッチテキストフォーマットのTexteditなどで編集しないように注意する。プレーンテキストのエディタ（Miなど）などを使う）。

９、HTSeqでsamからリードカウントが実行され、続いてedgeRで正規化、２群間比較が実行される。DE(differential gene) analysisのフォルダには以下のようなファイルが出力される。

f:id:kazumaxneo:20180227205910j:plain

３つの種類の分析が行われているはずである。

Differential gene expression tables
MDS plot (somewhat analogous to a principle component analysis plot) which will show whether your replicates group together and treatment groups separate based on the treatment
BCV plot (biological coefficient of variation) to look at gene level variation between samples

１、Differential gene expression tables（全組み合わせで実行されるのでcsvは６ファイルある）

f:id:kazumaxneo:20180227210055j:plain

２、MDS plot

f:id:kazumaxneo:20180227210306p:plain

３、BCV plot

f:id:kazumaxneo:20180227210358p:plain

実際にデータを解析するには、１つのディレクトリにシングルエンドのfastq、リファレンスのFASTA、リファレンスのgtfを配置する必要があります。SPARTAはディレクトリ内のファイルを拡張子で見分け（fastaやfaならリファンレスのFASTAファイルというふうに）、自動で解析をスタートします。公式マニュアルには、ターミナル経験が浅い、または初めての人も理解できるよう分かりやすい説明がされています。

https://github.com/abramovitchMSU/SPARTA_Docs_and_Tutorial/blob/master/docs/source/mactut.rst#id15

引用

SPARTA: Simple Program for Automated reference-based bacterial RNA-seq Transcriptome Analysis

Benjamin K. Johnson, Matthew B. Scholz, Tracy K. Teal and Robert B. Abramovitch

BMC Bioinformatics. 2016 Feb 4;17:66.