2022/02/21 画像追記
リファレンスゲノムを持たない非モデル生物のRNA-seqデータ解析では、計算時間とコストが依然として大きなボトルネックとなっている。この課題を解決するために、著者らは、トランスクリプトームde novoアセンブリを行わずにRNA-seqリードの機能定量を直接行う、新規のオールインワン、超高速ツール、Seq2Funを開発した。このパイプラインは、シーケンスエラー修正、ポリ(A)テールの除去、オーバーラップしたペアエンドリードの結合など、生のリードの品質管理から始まる。次に、各リードを可能な限りのアミノ酸断片に変換してDNA-タンパク質検索を行い、その後、十分にキュレーションされたタンパク質データベースから相同配列を同定する。最後に、このパイプラインは、遺伝子のアバンダンステーブル、パスウェイと生物種のヒットテーブル、結果を視覚化するHTMLレポート、下流解析に適したマッピングされた遺伝子がアノテーションされたクリーンリードの出力など、いくつかの有益な出力を生成する。Seq2Funは、ファイルの書き込みや読み込みといった中間ステップを持たないため、I/Oが非常に効率的になっている。Seq2FunはC++で記述されており、限られたCPU数、メモリ数のパソコンで動作させることができる。2,000,000リード/分以上の処理が可能で、de novoアセンブリに基づく従来のワークフローに比べ120倍以上高速でありながら、様々なテストデータセットにおいて高い精度を維持することができる。
参照ゲノムを持たない生物種の遺伝子レベルまたはパスウェイレベルの解析は、その転写産物の構築とアノテーションに大きく依存している(Martin and Wang 2011; Eldem et al. 2017; Voshall and Moriyama 2018)。従来のRNA-seqワークフローでは、複数のソフトウェアツールを使用して、生リードの品質チェック、リードエラー補正、トランスクリプトームde novoアセンブリ、トランスクリプトーム品質評価、トランスクリプトームアノテーション、DEGの同定やパスウェイエンリッチメント解析などのダウンストリーム解析を行う(Martin and Wang 2011; Eldem et al.2017; Voshall and Moriyama 2018)。下流の統計解析は比較的簡単だが、生データ処理が重要な障害として残っている。特に、トランスクリプトームde novoアセンブリは複雑で時間のかかる作業であり、大規模な計算資源を必要とする(Martin and Wang 2011; Eldem et al.) いくつかのトランスクリプトームde novoアセンブラが開発されており、例えば確立されたツールであるTrinity (Haas et al. 2013; https://github.com/trinityrnaseq/trinityrnaseq/wiki) やSOAPdenovo-Trans (Xie et al. 2014) 、さらに最近開発されたツールであるBridger (Chang et al. 2015), BinPacker (Liu et al. 2016), and TransLiG (Liu et al. 2019)などが挙げられる。しかし、これらのツールによる解析は、高性能なコンピュータで数日から数週間かかることもある。さらに、非モデル生物の組み立てられたトランスクリプトームは、しばしば多くの偽陽性および偽陰性に悩まされ、単一のアセンブラがすべてのシナリオで最良の結果を提供することはできない(Hölzer and Marz 2019; Liu et al.) 従来のRNA-seqワークフローにおけるもう1つの重要なステップは、トランスクリプトームのアノテーションである。確立された手順は、特にDNA間BLASTNアプローチと比較して、相同配列間の大きな進化的乖離を克服できる translated searchを介してDNA間BLASTXを実行することである(Conesa et al.2016; Ye et al.2019) 。この方法は、Blast2GO (Conesa and Götz 2008) やTrinotate (https://github.com/Trinotate/Trinotate.github.io/wiki) などのいくつかのプログラムで実装されている。しかし、これらの実装も時間がかかり、計算量が多い。de novoアセンブリおよびアノテーションの実行に必要な計算スキルおよび計算資源は、非モデル生物の研究においてRNA-seqを使用する際の大きな障壁となっている。
ここでは、上記の問題点を解決するために、非モデル生物のRNA-seqリードの機能定量を行う、超高速、アセンブリフリー、オールインワンツールであるSeq2Funを紹介します。基礎となるアルゴリズムの説明に加え、様々な生物種のシミュレーションデータと実データセットを用いて、Seq2Funがトランスクリプトームde novoアセンブリに基づく従来のRNA-seq解析ワークフローを精度および計算効率の両面で上回ることを示す。また、リファレンスゲノムがない生物のRNA-seqデータの解析にSeq2Funがどのように利用できるかをケーススタディとして示す。
Seq2Funは、RNA-seqのリードを可能な限りのアミノ酸配列に直接変換し、十分にキュレーションされたデータベースから相同なタンパク質配列を検索するという新しい戦略を持っている。Seq2Funには3つの主要なステップが存在する。(1) 生リードの品質管理、(2) クリーンアップしたリードをマージして可能な限りのアミノ酸配列に変換し、多種類のタンパク質データベースとアライメント、(3) KEGGオーソログ(KO)付き発現マトリックスと下流解析用のサマリー図の作成。
- 超高速:従来のRNA-seqワークフローに比べ、120倍以上のスピード(~200万リード/分)。
- 超低メモリコスト:わずか2.27GBのメモリ消費、8スレッド、16GBメモリの標準的なPCで実行可能。
- リファレンスフリー:生物のゲノムやトランスクリプトームのリファレンスが不要で、トランスクリプトームde novoアセンブリも不要。
- オールインワン:Seq2Funは生のRNA-seqリードを直接入力とし、中間ファイルの書き込みや読み込みをせずに遺伝子存在量テーブルを出力するため、I/Oが非常に効率的。
- 多機能:Seq2Funは、オルソログ遺伝子バンダンステーブル、これらのテーブルとリードの品質チェックをまとめたhtmlレポート、さらに遺伝子アセンブリなどのさらなる解析のためにマッピングされたクリーンリードの出力など、複数の出力ファイルを生成する。
- 柔軟性:カスタマイズされたデータベースを使用して、特定の遺伝子や生物のグループに関するRNA-seq解析をサポートする。
- 使いやすさ:最小限のプログラミングスキルで使用できる。
- ターゲット遺伝子アセンブルのサポート:マッピングされたリードを抽出し、ターゲット遺伝子アセンブルを行うための新機能がある。
Seq2Funは、Ubuntu (16.04 LTS以上)とmacOS Catalinaでテストされている。ここではubuntu18でビルドした。
- Seq2Fun (version 2.0.0) is written in C/C++11 and can be installed on Linux or Mac OS X (with Xcode and Xcode Command Line Tools installed).
git clone https://github.com/xia-lab/Seq2Fun.git
cd Seq2Fun/src/
make clean
多くの非モデル生物では、研究成果の生物学的理解は、KEGGパスウェイ、Gene Ontology、PANTHER分類システムなどの機能アノテーションを持つタンパク質コード遺伝子に限定されている。そのため、Seq2Fun version 2では、オルソログのような機能的アノテーションを持つ遺伝子にフォーカスしたデータベースを開発することで、非モデル生物を研究する多くの研究者のニーズに応えられるようになりました。Orthofinderをベースに構築された数十種類のデータベースをダウンロードできます(レポジトリより)。
version2 database
tar -xzvf plants.tar.gz
tar -xzvf birds.tar.gz
Seq2Funは、maximum exact match (MEM) モードとGreedyモードの2つのモードで実行できる。MEMモードはクエリーとリファレンス配列の完全一致のみを許可するため、データベース内に非常に近縁な種が存在する生物に適している。Greedyモードは、相同配列間の進化的距離を克服するために、クエリーと参照配列間のミスマッチを許容し、データベースに近縁の参照ゲノムを持たない生物に適している(最適なパラメータは論文の補足資料に記載されている)。
../bin/seq2fun --sampletable sample.txt --tfmi birds/birds.fmi --genemap birds/birds_annotation.txt -w 8 --profiling -V --outputMappedCleanReads --outputReadsAnnoMap
- --sampletable (recommended) sample table must consist of 3 columns (sample prefix name (sample01), forward reads name (sample01_R1.fq.gz), group info (control) for single-reads or 4 columns (sample prefix name (sample01), forward reads (sample01_R1.fq.gz), reverse reads (sample01_R2.fq.gz), group info (control) for paired-end reads. The columns must be separated by tab (string [=])
- --in1 read1 input file name (string [=])
- --in2 read2 input file name (string [=])
- --prefix prefix name for output files, eg: sample01 (string [=])
- --tfmi fmi index of Protein database (string [=])
- --genemap gene/protein KO species map (string [=])
- -w worker thread number, default is 2 (int [=2])
- -V enable verbose
- --outputMappedCleanReads enable output mapped clean reads into fastq.gz files, by default is false, using --outputMappedCleanReads to enable it
- --outputReadsAnnoMap enable output mapped clean reads-annotation map into .gz files, by default is false, using --outputReadsAnnoMap to enable it
- --profiling profiling mode, by default is false, using --profiling to enable it
(レポジトリより)Seq2Funには、比較モードとプロファイリングモード(デフォルト)の2つの出力モードがあります。比較モードではオルソログアバンダンス表のみ、プロファイリングモードでは4つの表 1).全サンプルのオルソログアバンダンス表 2).networkanalyst に提出する全サンプルのオルソログアバンダンス表 3).networkanalyst に提出して下流の解析に用いるアノテーションファイルサミット、各サンプルのオルソログアバンダンス表 4).mapped clean reads file 5).html reportが作成されます。
論文中では、通常50GBのRAMを必要としたマウスのRNA seq解析でseq2fun はわずか0.4GBしか消費しなかった事と、マウス、ニワトリ、ゼブラフィッシュ、回虫のデータセットで50-113倍高速だった事から、8スレッド、16GB RAMの性能の(ラップトップ)コンピュータで実行可能であると書かれています。
Ultrafast functional profiling of RNA-seq data for nonmodel organisms
Peng Liu, Jessica Ewald, Jose Hector Galvez, Jessica Head, Doug Crump, Guillaume Bourque, Niladri Basu, Jianguo Xia
Genome Res. 2021 Apr;31(4):713-720