2024/02/27 追記
信頼できるリファレンスゲノムを持たない生物種のRNAシーケンスデータからのトランスクリプトームアセンブリはde novoで行う必要があるが、de novo methodでは転写産物のアイソフォームを再構築する能力が不十分であることが多いことが研究で示されている。本著者らは、転写産物のアイソフォームの包括的なセットを作成することを主目的とするアセンブリパイプラインを構築することにより、この問題に対処する。
このパイプラインは、ショートリードRNA-seqデータを入力とし、一次アセンブルを行い、ガイディングコンティグセットをクラスター化し、ショートリードをガイディングコンティグにアライメントし、クラスター化された各ショートリードセットを個別にアセンブルし、一次アセンブルとクラスター単位のアセンブルを最終アセンブルにマージする。真核生物6種の実際のデータセットでテストした結果、ClusTrastは他のde novoアセンブラよりも発現量の多い既知のアイソフォームを、中程度の精度低下で再構築できることが示された。再現性に関しては、すべてのテストされたデータセットで、発現レベルの下限(<15%)において、またほぼすべてのデータセットで全範囲において、ClusTrastはトップであった。参照転写産物は、多くの場合(6つのデータセットで35~69%)、ClusTrastによって少なくとも95%の長さに再構築され、参照転写産物の半分以上(58~81%)は、多型を示すコンティグで再構築された。複数のアセンブリツールからアセンブルされたトランスクリプトのユニオンをプライマリーアセンブリとして使用した場合、ClusTrastのリコールは増加した。ClusTrastは、信頼できるリファレンスゲノムを持たない生物種におけるアイソフォームの研究に有用なツールであり、特に多型バリアントを含む包括的なトランスクリプトームセットを作成することを目的とする場合に有効であることが示唆された。
インストール
依存
Linux, (Mac OS is under development)
- shannon_cpp
- minimap2
- cut, awk, sed, gzip
- python3
- pysam
mamba create -n ClusTrAsT -y
conda activate ClusTrAsT
mamba install -c conda-forge -c bioconda shannon_cpp -y
mamba install -c conda-forge -c bioconda minimap2 -y
mamba install -c conda-forge -c bioconda transabyss -y
mamba install -c conda-forge -c bioconda isONclust -y
mmaba install pysam -y
#本体
git clone https://github.com/karljohanw/clustrast.git
cd clustrast/
> ./clustrast -h
usage: ./clustrast -1 FASTX_LEFT_PAIRED_END_READS -2 FASTX_RIGHT_PAIRED_END_READS -o OUTPUT_DIR [-p THREADS] [-u|--uniqify] [-g FASTX_GUIDING_CONTIGS] [-b FASTX_BASE_ASSEMBLY] [-t TEMPARORY_DIRECTORY] [-c CLUSTER_FILE] [--secondary-alignments N_SECONDARY_ALIGNMENTS] [--old-style-sr-clustering]
./clustrast -h #to show this help
./clustrast -d #to check dependencies and quit
実行方法
1,ガイドは指定せず、RNA seqのペアエンドショートリードのみ指定
clustrast -1 ~/sr_left.fq.gz -2 ~/sr_right.fq.gz -p 15 -o output_dir
ベースアセンブリにTrans-ABySS、コンティグのクラスタリングにisONclust、SRクラスタリングにminimap2+srClust、クラスタワイズアセンブリにshannon_cppが使用される(マニュアルより)。
2,ペアエンドショートリードと、ガイドとしてCCSのロングリードを指定
clustrast -1 ~/sr_left.fq.gz -2 ~/sr_right.fq.gz -p 15 -o ~/output_dir -g ~/ccs.fq
ガイドコンティグが与えられていない場合、ClusTrAsTはベースアセンブリを使用する。
3,ペアエンドショートリードと、ガイドとして手持ちのアセンブリ配列を指定
clustrast -1 ~/sr_left.fq.gz -2 ~/sr_right.fq.gz -p 15 -o ~/output_dir -g ~/ccs.fq
Trans-ABySSによるベースアセンブリは行わず、earlier_assembly.faをガイドコンティグとして使用する。
1の出力例(小さなfastqを使用)
論文より
- ClusTrastの一次アセンブリステップでは、Trans-ABySSが使用される。他のアセンブラを使用することも可能であるが、性能は劣る。複数のアセンブリツールからアセンブリされたトランスクリプトのユニオンをプライマリーアセンブリーとして使用すると、ClusTrastのリコールが向上するが、より大きな計算資源を必要とする。
- コンパクトなトランスクリプトームアセンブリは、例えば、再構成されたトランスクリプトームが遺伝子差分発現解析のリファレンスとしてリードのアライメントに使用されることを意図している場合などは望ましい。このような状況では本アプローチは適していない。しかし、可能な限り多くの支持される転写産物のアイソフォームを見つけることが目的である場合、コンパクトであること自体は望ましくない。6つのモデル生物のテストでは、ClusTrastは一貫して最も多くの転写産物アイソフォームを検出した。このことは、包括的であり且つ冗長でないコンティグのリストを提供するという、ClusTrastの意図と一致している。従って、真核生物の転写産物のアイソフォームをより完全に表現することに興味のある研究者は、ClusTrastを使用することが適している。
- ClusTrastで得られたコンティグリストは、研究課題に応じてさらなる処理や解析が可能である。
コメント
Trans-ABySSとクラスタリングには長い時間がかかります。初めに動作テストしたい場合、1/100~1/1000くらいにリード数を減らした小さいデータを使うと良いかもしれません。動物のRNA seq(gzip圧縮で6GBx2)を使って1のコマンドを試したところ、40時間ほどかかりました(20スレッド指定、TR3990X)。
依存
ClusTrast: a short read de novo transcript isoform assembler guided by clustered contigs
Karl Johan Westrin, Warren W. Kretzschmar & Olof Emanuelsson
BMC Bioinformatics volume 25, Article number: 54 (2024)
関連
https://kazumaxneo.hatenablog.com/entry/2019/04/12/073000