トランスクリプトームの解析には、次世代シーケンシング技術を用いたRNAシーケンシングが有効である。de novoゲノムアセンブリと同様に、de novoトランスクリプトームアセンブリは、リファレンスゲノムや追加のアノテーション情報に依存しないが、より困難である。特に、アイソフォームは発現量が非常に不均一(例:1:100)な場合があり、低発現のアイソフォームを特定するのは非常に困難である。一つの課題は、de Bruijn グラフにおいて、多重度の高い誤った頂点/辺(高発現アイソフォームによって生成される)を、低発現アイソフォームによる多重度の高くない正しい頂点/辺を除去することなく、除去することである。これを怠ると、低発現アイソフォームが失われたり、誤った頂点やエッジのために異なる遺伝子の転写産物が混在した複雑なサブグラフになってしまう。
既存のツールでは、グローバルな閾値よりも低い多重度で誤った頂点/辺を削除していたが、著者らは確率的なプログレッシブアプローチを用いて、ローカルな閾値で繰り返し誤った頂点/辺を削除する。これにより、低発現アイソフォームの多くの正しい頂点/エッジを保持しながら、グラフを、単一ではないにしても、それぞれが数個の遺伝子を含む、切断されたコンポーネントに分解することができる。既存の技術と組み合わせることで、IDBA-Tranは、高発現、低発現の両方の転写産物をアセンブルすることができ、シミュレーションデータと実データの両方において、感度と特異性の点で既存のアセンブラを上回ることができる。
HP
https://i.cs.hku.hk/~alse/hkubrg/projects/idba_tran/index.html
インストール
本体 Github
#bioconda (link)
conda install -c bioconda -y idba
> idba_tran
$ idba_tran
not enough parameters
IDBA-Tran - Iterative de Bruijn Graph Assembler for next-generation transcriptome sequencing data.
Usage: idba_tran -r read.fa -o output_dir
Allowed Options:
-o, --out arg (=out) output directory
-r, --read arg fasta read file (<=600)
-l, --long_read arg fasta long read file (>600)
--mink arg (=20) minimum k value (<=312)
--maxk arg (=60) maximum k value (<=312)
--step arg (=10) increment of k-mer of each iteration
--inner_mink arg (=10) inner minimum k value
--inner_step arg (=5) inner increment of k-mer
--prefix arg (=3) prefix length used to build sub k-mer table
--min_count arg (=2) minimum multiplicity for filtering k-mer when building the graph
--min_support arg (=1) minimum supoort in each iteration
--num_threads arg (=0) number of threads
--seed_kmer arg (=30) seed kmer size for alignment
--min_contig arg (=200) minimum size of contig
--min_transcript arg (=300) minimum size of transcript
--similar arg (=0.95) similarity for alignment
--max_mismatch arg (=3) max mismatch of error correction
--no_local do not use local assembly
--no_coverage do not iterate on coverage
--no_correct do not do correction
--pre_correction perform pre-correction before assembly
--max_isoforms arg (=3) maximum number of isoforms
--max_component_size arg (=30) maximum size of components
実行方法
1、fastqはマージして1つの"fasta"として与える必要があるため、IDBAのラン前にペアエンドfastqをマージする。このコマンドではgzip圧縮fastqは受け付けない。解凍してから指定する。
fq2fa --merge --filter pair_1.fq pair_2.fq read.fa
reads.faができる。
2、IDBA-tranのラン
idba_tran -r read.fa -o output_dir
出力例
24スレッド指定、k値は25から125まで5ずつ増やす。 相同性98%、サイズ300bp以上とする。precorrection実行。
idba_tran -r read.fa --num_threads 24 --pre_correction -o out_dir --mink 25 --maxk 125 --step 10 --min_transcript 300 --similar 0.98
引用
IDBA-tran: a more robust de novo de Bruijn graph assembler for transcriptomes with uneven expression levels
Yu Peng, Henry C. M. Leung, Siu-Ming Yiu, Ming-Ju Lv, Xin-Guang Zhu, Francis Y. L. Chin
Bioinformatics, Volume 29, Issue 13, 1 July 2013, Pages i326–i334
関連