macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

RNA seq用のde novoアセンブリツール BinPacker

 

RNA-seq法の出現によりmRNA発現レベルに関して前例のない正確さが提供されたため、転写、スプライシング変異および関連する機構の研究方法が大きく変わっている[論文より ref.1]。それらは、レアなスプライシングアイソフォームおよび低発現スプライシングアイソフォームを含む、すべてのスプライシングバリアントの正確な解明を可能にする。これは、ガンを含む異常なスプライシング[ref.1]に関連する様々なヒト疾患のメカニズムを研究するための多くの新しい扉を開いている。 RNA-seq法では、生成されたデータセットの解釈に関連する新たな課題が生じる。 PacBio RS IIシーケンサーからのシークエンシングリードは、複数のエクソンをカバーするのに十分な長さだが、より高いエラー率に悩まされているため、転写再構成の改善には一般的に使用されていなかった。したがって、ショートシーケンシングリードを使ったRNA-seq技術は依然として必要になっている。 1つの大きな課題は、ショートシーケンシングリードを、複数のスプライシングバリアントを含む可能性のある全長転写物に正確に組み立てる方法である。

 文献[ref.4-6]によれば、真核生物遺伝子は複数のアイソフォームを産生することができる様々な選択的スプライシングイベントが存在する。イベントタイプには、エキソンのスキップ、イントロン保持および相互に排他的なエキソンが含まれる。さらに複雑なことに、いくつかのエキソンは、選択的スプライシングプロセス中に転写産物に部分的に関与することがある。一見すると、トランスクリプトームアセンブリはゲノムアセンブリに似ているが、実際には異なり以下の事実により、トランスクリプトームアセンブリはより困難になる:(i)転写産物の発現レベルが非常に低かったり、非常に高かったりし得る[ref.8]。 (ii)各遺伝子座は、通常、種々の選択的スプライシングイベントに起因して複数の転写産物を産生する。(iii)低い発現レベルを有するいくつかの転写産物は、シーケンスエラーのために沈み得る[8,9]。したがって、トランスクリプトームアセンブラの成功は、これらの困難をすべて克服し、可変長、発現レベルおよびノイズの全長転写物を回収することができるもののはずである。

 トランスクリプトームアセンブリの計算ストラテジは、一般にab initioとde novoの2つのカテゴリーに分類される[ref,1,8]。リファレンスゲノムが利用可能である場合、Cufflinks [ref.10]やScripture [ref.11]のようなab initioアプローチは、通常RNA-Seqのリードをリファレンスゲノムにマッピングすることから始まり、オーバーラップアライメントを持つリードを結合グラフにマージする。よく研究された最小コスト最小経路カバーモデルは、RNA-seqデータセットを説明する最小セットの経路抽出にわずかに用いられる。非常に最近公開された(論文執筆時点)ab initioアセンブラであるStringTie [ref.12]は、RNA-Seqのりーどをリファレンスゲノムにマッピングし、最大スプライシンググラフを作成し、最大フローネットワークモデルを使用して転写産物を組み立てる。 ABySS [ref,13]、SOAPdenovo-Trans [ref.14]、Oases [ref.15]、IDBA-Tran [ref.16]などの新しいアプローチは、転写産物をリファレンスゲノムにマッピングすることなく直接使用する。これは、リファレンスゲノムが利用できないか、高度に断片化しているか、ガン組織のように実質的に変化している場合に重要になる。ゲノムアセンブリで使用される技術に基づいて開発されたこれらのデノボアプローチは、一般的なトランスクリプトームアセンブリ問題のすべてを解決するものではない[ref.7]。 de novoトランスクリプトームアセンブリ用に特別に設計されたTrinity [ref.8]は、最新のトランスクリプトームアセンブラの状態を大幅に改善した。これはショートリードをオーバーラップを通してコンティグへ拡張し、コンティグをgraphに接続し、このgraphからパスを抽出してbrute-force 戦略に基づいてスプライシングバリアントを構築することから始まる。Trinityは、ゲノムアセンブリ技術に根ざした以前のデノボアセンブラを改良しているが、そのソリューションを最適化するための適切なモデルを導入していないし、シーケンシングカバレッジのデプス情報もアセンブリ手順に組み込んでいない。しかしTrinitiyの著者らは転写産物中の異なるコード領域のカバレッジデプスの類似性の利用が有用であり得ることを指摘している。この目的のために、私たち(この論文の著者ら)は最近、Cufflinksで使用される技術を使用してトリニティの限界を克服できるように、CufflinksとTrinityの間を「橋渡しする」新たなトランスクリプトーム・アセンブラー、Bridger [17]を発表した。 Bridgerは、カバレッジ情報を適切なモデルを介して組み立て手順に組み込んでいるが、(1)Bridgerでは、weightがいくらか任意に(arbitrarilyに)定義されている:(ref.2) イン・エッジとアウト・エッジの両方を有するノードは、転写産物の終わりである可能性がない。したがって、改善の余地がまだ残っている。

 本論文では、Bridger [ref.17]で用いられている手法を用いて作成されたスプライシングgraph上のアイテムの軌道の集合を追跡することで問題を再構築することにより、フルサイズの転写産物を組み立てる新しいde novoアルゴリズムBinPackerを報告する。スプライシングgraph上のアイテムの軌跡の集合は、異なるサイズのアイテムの所定の数をパックするように定義された従来のビンパッキング問題とは異なるビンパッキング問題の一連の変形を解くことによって達成することができる可能な限り所定のサイズのビンに分割する。それぞれのビンは、ビンのサイズを超えないサイズの合計を持つアイテムのみを保持できる。Bridgerを実際のデータセットとシミュレートされたデータセットを使い、競合するアセンブリツールTrinity[ref.8]、ABySS [ref.13]、Trans-ABySS [ref.18]、SOAPdenovo-Trans [ref.14]、Oases [ref.15]、IDBA-Tran [ref.16]と比較した。シミュレーションデータセットは結果セクションで説明したように生成した。リアルデータセットは、2つの標準RNA-seqデータセット、1つのイヌと1つのヒト、および1つのstrand specificマウスRNA-seqデータセットを含む3つのデータセットが使用された。比較結果は、リアルデータとシミュレート両方で、BinPackerがトランスクリプトーム・アセンブラの評価に一般的に使用されているスタンダードな評価基準で比較されたアセンブラのほとんどを凌駕することを示していた。さらに驚くべきことに、犬のデータセットでは、最も最近にリリースされたab initioのアセンブラであるStringTie [ref.12]のよりも優れていた。

 

f:id:kazumaxneo:20180702125232j:plain

BinPackerアセンブリグローチャート。supplementaryより転載。

 

BinPacker に関するツイート


 インストール

ビルド済みのバイナリとソースコードがダウンロードできる。

SourceForge

https://sourceforge.net/projects/transcriptomeassembly/files/BinPacker_binary.tar.gz/download

解凍して中に入る。

cd BinPacker_binary/
./update
./BinPacker -h #ヘルプ

$ ./BinPacker 

    

** Error: data type is not specified! Please type -h option for help! **

    

[uesaka@cyano BinPacker_binary]$ ./BinPacker -h

    

===========================================================================

    

BinPacker v1.0 usage:

    

** Required **

    

-s <string>: type of reads: ( fa or fq ).

    

-p <string>: type of sequencing: ( pair or single ).

    

If paired_end reads:

   -l <string>: left reads.

   -r <string>: right reads.

    

If single_end reads:

   -u <string>: single reads.

    

---------------------------------------------------------------------------

    

** Options **

    

-d: remove duplicated transcripts, at least one of whose ends has both in- and out- edges.

    

-o <string>: name of directory for output, default: ./BinPacker_Out_Dir/

    

-m <string>: strand-specific RNA-Seq reads orientation, default: double_stranded_mode.

             if paired_end: RF or FR;

             if single_end: F or R.

    

-k <int>: length of kmer, default:25.

    

-g <int>: gap length of paired reads, default: 200.

    

-S <int>: minimum coverage of kmer as a seed, default: 2.

    

-E <float>: minimum entropy of kmer as a seed, default: 1.5.

    

-C <int>: minimum coverage of kmer used to extend, default: 1.

    

-N <float>: minimum entroy of kmer used to extend, default: 0.0.

    

-J <int>: minimum of the coverage of a junction, default: 2.

    

-v: report the current version of BinPacker and exit.

    

** Note **

    

A typical command of BinPacker might be:

    

BinPacker -s fq -p pair -l reads.left.fq -r reads.right.fq

    

(If your data are strand-strand, it is recommended to set -m option.)

    

===========================================================================

 BinPackerはバイナリファイルではなくシェルスクリプト

 

 dockerイメージも1つアップされている(リンク)。

docker pull ycogne/binpacker
#ホストの/Users/user/docker_shareとコンテナの/homeを共有ディレクトリとして起動。
docker run -i -t -v /Users/user/docker_share/:/home ycogne/binpacker
cd /usr/bin/BinPacker_1.0/

 

ラン

テストラン。

cd sample_test/
BinPacker -s fq -p pair -l reads.left.fq -r reads.right.fq
  • -s     type of reads: ( fa or fq ).
  • -p     type of sequencing: ( pair or single ).
  • -l      left reads.

  • -r      right reads.

テストの計算は数秒で終わる。出力 BInPacker_Out_Dir/にBinPacker.faとlogができる。

 

supplementaryのtable A-Dには、フルサイズまでアセンブリできたtranscriptsの数がまとめられています。 supplementaryには他のRNAアセンブリツールで使用したオプションなどもまとめられています(pubmed)。

 

引用

BinPacker: Packing-Based De Novo Transcriptome Assembly from RNA-seq Data.

Liu J, Li G, Chang Z, Yu T, Liu B, McMullen R, Chen P, Huang X.

PLoS Comput Biol. 2016 Feb 19;12(2):e1004772.