リボソームプロファイリング(Ribo-seq)は,コドン占有率のプロファイリング,活発に翻訳されているオープンリーディングフレーム(ORF)の同定から,様々な生理学的・実験的条件下での翻訳効率の定量化まで,RNAの翻訳をグローバルにモニタリングする強力な技術である。しかし、Ribo-seqデータから翻訳情報を解析し、解読することは容易ではない。Ribo-seqデータを解析するための既存のツールは数多くあるが、これらのツールのほとんどは、特定の機能または限定された機能のために設計されており、Ribo-seqデータを解析するための使いやすい統合ツールは不足している。幸いなことに、Ribo-seqにおけるribosome protected fragments(RPF)のサイズが小さい(26-34nt)ことと、比較的少量のシーケンスデータであることから、バイオインフォマティクスの専門知識の有無にかかわらず、ユーザーが操作しやすいこのようなウェブプラットフォームの開発が大いに促進される。そこで、Ribo-seqデータの解析を一元化するために、便利で自由に利用できるWebベースのサービスRiboToolkit(http://rnabioinfor.tch.harvard.edu/RiboToolkit)を開発した。Ribo-seqデータの解析には、データのクリーニングや品質評価、RPFに基づく発現解析、コドン占有率、翻訳効率解析、 differential translation analysis、機能アノテーション、translation metagene analysis、活発に翻訳されているORFの同定などが含まれる。また、データ解析を容易にし、結果を直感的に可視化するために、使いやすいWebインターフェースを開発した。このように、RiboToolkitは、リボソームプロファイリングに基づくmRNA翻訳の研究を大いに促進するだろう。
アップロードされた配列は、rRNA、tRNA、snRNAに由来するRPFを除外するために、Bowtie v1.2.2(33)をデフォルトで最大2つのミスマッチ(-v 2)の設定で用いて、rRNA、tRNA、snRNAにアライメントされる。次に、STAR v2.7を用いて、パラメータ(-outFilterMismatchNmax 2 -quantMode TranscriptomeSAM GeneCounts -outSAMattributes MD NH -outFilterMultimapNmax 1)を設定し、 ribosome protected fragments (RPFs) 配列をリファレンスゲノムにマッピングする。ゲノムマップされたRPFは、bowtie v1.2.2を用いて、パラメータ「-a -v 2」でタンパク質コードされている転写産物にマッピングされる。Ribo-seqの品質評価のために、riboWaltz v1.1.0を用いてコーディングフレームの分布と3nt周期性の解析を行う。Subread package v1.6.3のfeatureCountsプログラムを用いて,ゲノムマッピングファイル(-t CDS -g gene_id)に基づいてCDS領域に一意にマッピングされたRPFの数をカウントし,RPF Per Kilobase per Million mapped RPFs (RPKM)として正規化する。コドンベースの解析では、0フレームで翻訳されたRPFの5′マッピングサイト(デフォルトでは26-32nt)を用いて、オフセット付きのPサイトを推定する。オフセットはユーザーが設定することもできるし、plastid v0.4.8のpsite関数を用いて翻訳開始点周辺のRPFマッピング分布に基づいて計算することもできる。さらに、コドン占有率は、Aサイトの下流の+1、+2、+3ポジションの平均占有率として計算された基本占有率で正規化される。Pauseスコアは、PausePredローカルバージョンのデフォルトパラメータを用いて、コドンポーズイベントを評価するために使用される。一時停止部位周辺の上流および下流の配列(±50nt)を転写産物の配列から抽出し,RNA二次構造,最小自由エネルギー(MFE),GC含量など,さまざまな配列の特徴を計算する。RNA 二次構造と最小自由エネルギーは ViennaRNA Package v2.0 の RNAfold プログラムを用いてデフォルトのパラメータで計算する。活発に翻訳されたORFを同定するために、STARによって生成されたBAMファイルからソフトクリップされたリードを除去して、エンドツーエンドでゲノムにマッピングされたRPFリードを抽出し、次に、ORFのアノテーションに高速かつ高感度を示すRiboCode v1.2.11を用いて、すべての活発に翻訳されたORFを同定する。次に、各フレームのRPFの分布に基づいて、各候補ORFにおける3ntの周期性(デフォルトではP値<0.05)を統計的に有意に評価することで、活発に翻訳されたORFを特定する。
翻訳効率は、各遺伝子のCDS RPFアバンダンスとmRNAアバンダンスの比として計算する。そのためには、遺伝子発現カウントマトリックス(生のリードカウント)をユーザーがグループケースのWebページにアップロードする必要がある(論文図2)。遺伝子発現量行列は、異なるサンプルの付随するRNA-seqデータの生のリードカウントをマージして生成される。RNA-seq データの BAM ファイルをマッピングしてリードをカウントするには、featureCountsや HTseqなど、多くのツールを使用することができる。RiboToolkitでは、各生物種で使用したgtfファイルの情報とダウンロードリンクを提供している。2つ以上のreplicatesを持つ2つのグループ間の翻訳効率の差は、翻訳のmRNAレベルへの自然な依存性を一般化線形モデルとしてモデル化するDESeq2エンジンをベースにしたRiborex v2.4.0を用いて解析する。Replicatesのない2群については,fold changeのみを計算する。翻訳が異なる遺伝子の生物学的な意味合いを調べるために(Fold change > 1.5 and adjust P-value < 0.05 by default)、様々な機能的遺伝子のエンリッチメントを行う。一方、GO、KEGG、MSigDBの機能遺伝子セットに対するGene Set Enrichment Analysis(GSEA)は、ヒト、マウス、ラット、ゼブラフィッシュ、ハエ、線虫についてサポートされている。機能的エンリッチメントでは、Fisher's exact testを用いてエンリッチメント解析を行い、GSEA解析ではclusterProfilerパッケージを利用している。デフォルトではFDR < 0.05を統計的に有意なレベルとする。
workflow and methods
https://rnabioinfor.tch.harvard.edu/RiboToolkit/help.php#groupcase
(HPより)
https://rnabioinfor.tch.harvard.edu/RiboToolkit/index.php にアクセスする。
SINGLE CASE ANALYSIS とDIFFERENTIAL TRANSLATION STUDIES が選べる。
ここではSINGLE CASE ANALYSISの流れだけ確認する。
SINGLE CASE ANALYSIS
生物を選択する。
シークエンシングタイプを選択する。ここではFASTQを選択。
FASTQをアップロードする。シングルサンプルの解析でサンプル間比較は行われないが、複数のファイルをアップすることはできる。
Add FileボタンでFASTQを指定し、Start uploadでアップロードを開始する。試した時は1GBのFASTQx2のアップロードは数分で完了した。
アダプタートリミングがまだ終わってないなら、アダプタートリミングは必ず必要。
RPF解析のパラメータ。最後にSubmitをクリックする。
メールアドレスを記入するとラン終了後に通知が届く。
出力例
全ての結果は一番上のDownload resultsボタンからまとめてダウンロードできる。
引用
RiboToolkit: an integrated platform for analysis and annotation of ribosome profiling data to decode mRNA translation at codon resolution
Qi Liu, Tanya Shvarts, Piotr Sliz, Richard I Gregory
Nucleic Acids Research, Volume 48, Issue W1, 02 July 2020, Pages W218–W229