macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

ONT cDNA ロングリードのエラー修正を行うisONcorrect

 

 ロングリードを使用したトランスクリプトームシーケンスは、細胞の転写ランドスケープを理解するための強力な方法であることが証明されている(Wyman et al、n.d .; Bayega et al、2018; Byrne、Cole、et al、2019)。ロングリードテクノロジーにより、ほとんどの転写産物をエンドツーエンドでシーケンスできるため、ショートリードでは必要になる複雑なトランスクリプトームアセンブリ手順を克服できる(Gordon et al、2015; Liu et al、2017)。特に、オックスフォードナノポア(ONT)プラットフォームは、その移植性、低コスト、高スループットにより、ロングリードトランスクリプトームシーケンスの最先端のテクノロジーとなっている(Sessegolo et al、2019; Jenjaroenpun et al、2018)。これにより、選択的スプライシングパターン(Byrne et al、2017)、対立遺伝子特異的発現(Byrne et al、2017)、またはタイピング(Cole et al、2019)、RNA修飾(Leger et al、2019; Sessegolo et al、2019; Wongsurawat et al、nd)、新しいアイソフォームの発見(Workman et al、2019; Clark et al、2019; Sessegolo et al、2019)、およびメタトランスクリプトームのサンプル(Semmouri et al.2019)などの研究が可能になる。
 ただし、これまでのONTトランスクリプトーム研究の範囲は、エラー率が比較的高いために制限されていた。Direct RNAシーケンシングおよびcDNAシーケンシングの両方で約14%である(Workman et al、2019)。この制限を克服するための最も一般的なアプローチは、リードをリファレンストランスクリプトーム(たとえばヒトではGENCODE)に対してアラインさせることである(Wyman et al、n.d .; Workman et al、2019)。 これにより、高品質のリファレンスが利用できない場合、限られた技術となり、多くの非モデル生物が排除されてしまう。さらに、リファレンスが利用できる場合でも、通常は個人、細胞、または環境間の配列の違いをキャプチャしないため、欠落した遺伝子座または非常に可変性の高い遺伝子座からのリードの不整合が生じる。これは、リファレンスではを捕捉しない個人間で高い配列多様性を持つ複雑な遺伝子ファミリーで特に問題があることが示されている(Sahlin et al、2018)。エラー率を減らすためのいくつかの実験的な(ウェットの)アプローチが存在する(Lebrigand et al、2019; Cole et al、2019; Volden et al、2018)。しかし、これらは通常、スループットの低下と実験的なオーバーヘッドという犠牲を伴う。
 一方、計算によるエラー修正は、スループットや実験プロトコルをカスタマイズする必要性に影響を与えることなくエラー率を減らす非常に有望なアプローチである。ゲノムリードのエラーを修正するように設計されたツールがある((Koren et al、nd)、(Tischler and Myers、nd)、(Salmela et al、2016)、(Xiao et al、2017) 、(Chin et al、2013))。しかし、トランスクリプトームのエラー修正は挑戦的であり、同じ遺伝子または遺伝子ファミリー遺伝子座からのリード内の構造的変動性、および、例えば、選択的スプライシング、可変転写によるリード内の非常に可変で領域特異的なカバレッジ、およびさまざまな転写産物の量のため、ゲノムの場合とは異なる。実際、最近の研究では、ゲノム用に設計されたエラー修正プログラムをONTトランスクリプトームデータに適用すると、過剰な修正によるexonの脱落または追加によるアイソフォームランドスケープの変更、またはカバレッジの低いサイトでのリードの分割など、望ましくないダウンストリーム効果があることがわかった(LIma et al、2019)。 ONTトランスクリプトームデータのエラー修正の可能性を実現するには、カスタムアルゴリズムを設計する必要がある。最近の論文はクラスタリング(Sahlin and Medvedev 2019; Marchet et al.2019)とこのデータの向きの問題(Ruiz-Reche et al。2019)に取り組んでいるが、現在、ONTトランスクリプトームリードのエラー修正に利用できるツールはない。
 このホワイトペーパーでは、エラー率を約1%に減らすエラー修正トランスクリプトームcDNA ONTデータの方法を提示する。これにより、リファレンスフリーのトランスクリプトーム解析のための費用対効果の高い完全なcDNA ONTトランスクリプトームシーケンスのためのメソッドを適用する可能性を示す。これらのエラー率は、isONcorrectと呼ばれる新しい計算エラー修正方法によって達成できる。これは、異なるアイソフォームからのリード間で共有されるシーケンス領域を活用する。 IsONcorrectはhttps://github.com/ksahlin/isONcorrectからダウンロードできる。ここでは、ショウジョウバエcDNAについて、変更されたストランドPCS109プロトコル、PCS109スパイクイン(SIRV)データ、およびin silicoデータを使用して生成されたデータを使用してメソッドを評価する。本方法は、ONTトランスクリプトームシーケンスのはるかに広範なアプリケーションへの扉を開く。

 

インストール

macos10.14のanaconda3.7環境にて、オーサーが推奨する以下の手順で仮想環境を作成してテストした。

依存

  • python version >=3.
  • spoa (1.1.5)
  • edlib (1.1.2)
  • NumPy (1.16.2)

本体 Github 

conda create -n isoncorrect python=3 pip -y
conda activate isoncorrect
pip install isONcorrect
conda install -c bioconda spoa -y

> isONcorrect --help

$ isONcorrect --help

usage: isONcorrect [-h] [--version] [--fastq FASTQ] [--k K] [--w W] [--xmin XMIN] [--xmax XMAX] [--T T] [--exact] [--disable_numpy] [--max_seqs_to_spoa MAX_SEQS_TO_SPOA] [--max_seqs MAX_SEQS]

                   [--exact_instance_limit EXACT_INSTANCE_LIMIT] [--set_w_dynamically] [--verbose] [--compression] [--outfolder OUTFOLDER]

 

De novo error correction of long-read transcriptome reads

 

optional arguments:

  -h, --help            show this help message and exit

  --version             show program's version number and exit

  --fastq FASTQ         Path to input fastq file with reads (default: False)

  --k K                 Kmer size (default: 9)

  --w W                 Window size (default: 10)

  --xmin XMIN           Upper interval length (default: 14)

  --xmax XMAX           Lower interval length (default: 80)

  --T T                 Minimum fraction keeping substitution (default: 0.1)

  --exact               Get exact solution for WIS for evary read (recalculating weights for each read (much slower but slightly more accuracy, not to be used for clusters with over ~500 reads) (default: False)

  --disable_numpy       Do not require numpy to be installed, but this version is about 1.5x slower than with numpy. (default: False)

  --max_seqs_to_spoa MAX_SEQS_TO_SPOA

                        Maximum number of seqs to spoa (default: 200)

  --max_seqs MAX_SEQS   Maximum number of seqs to correct at a time (in case of large clusters). (default: 1000)

  --exact_instance_limit EXACT_INSTANCE_LIMIT

                        Activates slower exact mode for instance smaller than this limit (default: 0)

  --set_w_dynamically   Set w = k + max(2*k, floor(cluster_size/1000)). (default: False)

  --verbose             Print various developer stats. (default: False)

  --compression         Use homopolymenr compressed reads. (Deprecated, because we will have fewer minmimizer combinations to span regions in homopolymenr dense regions. Solution could be to adjust upper interval legnth

                        dynamically to guarantee a certain number of spanning intervals. (default: False)

  --outfolder OUTFOLDER

                        A fasta file with transcripts that are shared between samples and have perfect illumina support. (default: None)

 

 

テストラン

容量が大きいので注意。

git clone https://github.com/ksahlin/isONcorrect.git
cd isONcorrect/
isONcorrect --fastq test_data/isoncorrect/0.fastq \
--outfolder output_dir

 

Githubには、実際のfull-length ONT cDNA sequencesの選抜からエラーコレクションまでの流れが説明されています。確認して下さい。

"Processing and error correction of full-length ONT cDNA reads is acheved by the pipeline of running pychopper --> isONclust --> isONcorrect"

引用

Error correction enables use of Oxford Nanopore technology for reference-free transcriptome analysis
Kristoffer Sahlin​, Botond Sipos, Phillip L James,​ Daniel J Turner,​ Paul Medvedev

bioRxiv preprint first posted online Jan. 8, 2020

 

関連