de novo transcriptomeのアセンブリツール TransLiG

　オルタナティブスプライシングは真核生物遺伝子における遺伝子調節の重要な形態であり、遺伝子機能の多様性ならびに疾患のリスクを増大させる［ref.１、２、３］。報告されているように[ref.4]、[ref.5]、ヒト遺伝子を含む真核生物遺伝子のほとんどはオルタナティブスプライシングの過程を経るため、異なる細胞1つの遺伝子が数十または数百のスプライシングアイソフォームを作り出せる。したがって、特定の条件下での全長転写物の同定は、その後の多くの生物学的研究において重要な役割を果たす。しかしながら、我々はまだ完全な人間の写しの風景からは程遠い、そしてその状況は非ヒト真核生物種にとってははるかに明らかではない[ref.6]。

　RNA-seqは、これまでにない正確さで、トランスクリプトームレベル全体での発現遺伝子の同定および存在量の測定を可能にする強力な技術である[ref.7、8、9、10]。 RNA-seqプロトコールはサンプリングされた発現トランスクリプトを入力として取り、ランのために2億以上のショートリードを生成し、そして各シーケンシングリードは一般に50-150塩基対の長さであり、完全長トランスクリプトを再構築することは大きな課題である。第一に、異なる転写物は非常に異なる発現量を有する可能性があり、それは構築されたシーケンスグラフ（スプライシンググラフ、De brujinグラフなど）をかなり不均一な範囲にする。第二に、同じ遺伝子からの異なる転写物が選択的スプライシングのためにエキソン配列を共有し、スプライシンググラフをさらに複雑にする。第三に、大量のRNA-seqリードにはシークエンシングエラーが含まれているため、RNA-seqデータから低発現の転写産物を集めることはさらに困難である。上記のすべてが、トランスクリプトームアセンブリの問題を非常に困難にしている。

　近年、転写産物アセンブリの問題を解決するために開発された方法が増えてきており、それらの大部分は2つのアプローチに分類することができる：リファレンスベース（またはゲノムガイド）およびde novo [ref.11、12]。 Scallop [ref.13]、TransComb [ref.14]、StringTie [ref.6]、Cufflinks [ref.15]、およびScripture [ref.16]などのリファレンスベースのアプローチでは、通常、Hisa［ref.17］、Ｓｔａｒ［ref.18］、Tophat ［ref.19］、SpliceMap ［ref.20］、MapSplice［ref.21］、またはGSNAP ［ref.22］などのアライメントツールを使用してRNAシーケンスのリードをリファレンスゲノムにマッピングする。ならびに同じ遺伝子座からのリードは、スプライシンググラフを形成するためにクラスタに分類される。全ての発現された転写物はグラフを横断することによって集めることができ、この戦略によってアセンブリされた転写物は、リファレンスゲノムから恩恵を受けるので、一般にデノボの戦略によるものと比較してより高い精度を有する。しかしそのような高品質のリファレンスゲノムは現在ほとんどの種で利用できないため、実際には著しく制限される。

　リファレンスゲノムが利用できない、不完全である、高度に断片化されている、または癌組織におけるように実質的に改変されている場合、新規アセンブリは望ましいアプローチである。 BinPacker [ref.23]、Bridger [ref.24]、Trinity [ref.12]、IDBA-Tran [ref.25]、SOAPdenovo-trans [ref.26]、ABySS [ref.27]、Oases [ref.28]など、数多くのde novoアセンブラがある。この戦略は通常、それらの配列の重複に基づいてRNA-seqリードからスプライシンググラフを直接構築し、そして次に異なるアルゴリズムを使用してグラフをトラバースすることによって転写物を集める。 IDBA-Tran、SOAPdenovo-trans、ABySS、およびOasesなどのアセンブラは、ゲノム構築における重要な技法に基づいて開発されているため、一般に、トランスクリプトーム構築ではうまく機能しない。 Trinityは、トランスクリプトームのde novoアセンブリを処理するための方法を設計するための扉を開く。最初にk-mer拡張ストラテジーによってシーケンシングリードを長いコンティグに拡張し、次にそれらのコンティグをde bruijnグラフに接続し、最後にde bruijnグラフをトラバースすることによってすべての表現された転写産物を推論する。 Trinityの論文に見られるように、そのアプリケーションを妨げるいくつかの制限がある。アセンブリ手順において有用であるであろうデプス情報は適切に使用されず、そしてブルートフォース戦略がde bruijnグラフにおける転写産物を表す経路を検索するために適用され、それが偽陽性率としてユーザーをひどく悩ます。 Bridgerは、リファレンスベースのアセンブラCufflinksからde novoアセンブリへの最小パスカバーモデルの移植に成功し、徹底的な列挙を効果的に回避し、誤検知を大幅に減少させる。ただし、Trinityの論文に記載されているように、アセンブリ手順の開発に役立つはずのシーケンスデプス情報を十分に活用していない。続いて、最小パス数を制限することなく、ビンパッキングモデルによってシーケンスデプス情報を完全に使用するために、新しいアセンブラBinPackerが開発された。 BinPackerは同種の他のものよりも優れたパフォーマンスを発揮するが、ペアエンド情報アセンブリ手順に統合していないため、改善の余地がある。

　本稿では、フェージングパスを用いて開発された新しいde novoアセンブラTransLiGと、スプライシンググラフから繰り返し重み付き折れ線グラフを構築する方法を紹介する。 TransLiGでのフェージングパスのアイデアは、Scallop [ref.13]（リファレンスベースのトランスクリプトームアセンブラ）から動機付けられた。（一部略）

　Transity、Bridger、およびBInPackerなどの同種のすべての顕著なツールよりも実質的に優れたものにするために、TransPathおよび反復折れ線グラフを構築することによってシーケンスデプスおよびペアエンド情報をアセンブリ手順に統合するTransLiGを開発した。人工データと実データの両方でテストした場合、テストされたマウスのデータにそれぞれで、精度はBinPackerとBridgerよりも6％高く、人工データではTrinityよりも15％近く、BinPacker、BridgerとBridgerよりも7％、14％、および21％高かった。 TransLiGは最高の精度を達成するだけでなく、テストしたすべてのデータセットで最高の感度を達成した。さらに、TransLiGはさまざまな評価パラメータで安定して最高のパフォーマンスを維持する。（以下略）

インストール

依存

boost_1_47_0

#boost導入
wget http://sourceforge.net/projects/boost/files/boost/1.47.0/boost_1_47_0.tar.gz
tar zxvf boost_1_47_0.tar.gz
cd boost_1_47_0/

#ビルド　指定なしだと/usr/local/に導入されるが、ディストリビューション提供のboostが入っていると優先順でおかしくなる。
#できるだけ別の場所に入れる。例えば"$HOME/local"等
./bootstrap.sh 
./b2 install --prefix=</BOOST/install_dir>

本体　 SourceForge

cd TransLiG_1.0
./configure --with-boost=</BOOST/install_dir>
make -j 12

> ./TransLiG

# ./TransLiG

** Error: data type is not specified! Please type -h option for help! **

root@d6b44964ef68:/data/TransLiG_1.1# ./TransLiG -h

===========================================================================

TransLiG v1.0 usage:

** Required **

-s <string>: type of reads: ( fa or fq ).

-p <string>: type of sequencing: ( pair or single ).

If paired_end reads:

-l <string>: left reads.

-r <string>: right reads.

If single_end reads:

-u <string>: single reads.

---------------------------------------------------------------------------

** Options **

-o <string>: name of directory for output, default: ./TransLiG_Out_Dir/

-m <string>: strand-specific RNA-Seq reads orientation, default: double_stranded_mode.

if paired_end: RF or FR;

if single_end: F or R.

-t <int>: minimum length of transcripts, default: 200.

-k <int>: length of kmer, default: 31.

-K <int>: minimum length of kmer used to connect fragmented graphs, default: 21.

-c <int>: minimum coverage of nodes used to connect fragmented graphs, default: 30.

-g <int>: gap length of paired reads, default: 200.

-S <int>: minimum coverage of kmer as a seed, default: 2.

-E <float>: minimum entropy of kmer as a seed, default: 1.5.

-C <int>: minimum coverage of kmer used to extend, default: 1.

-N <float>: minimum entroy of kmer used to extend, default: 0.0.

-J <int>: minimum of the coverage of a junction, default: 2.

-v: report the current version of TransLiG and exit.

** Note **

A typical command of TransLiG might be:

TransLiG -s fq -p pair -l reads.left.fq -r reads.right.fq

(If your data are strand-strand, it is recommended to set -m option.)

===========================================================================

root@d6b44964ef68:/data/TransLiG_1.1#

plugin/fastool/のビルドができておらずエラーが出た。別途ビルド。

cd plugins/fastool/ 
make
./fastool

実行方法

ペアエンドfastqを指定する。

TransLiG -s fq -p pair -l reads.left.fq -r reads.right.fq

ランの途中、fastoolによるfastq処理後にエラーが出る。

引用

TransLiG: a de novo transcriptome assembler that uses line graph iteration

Juntao Liu, Ting Yu, Zengchao Mu, Guojun Li
Genome Biology 2019 20:81

参考

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

de novo transcriptomeのアセンブリツール TransLiG