macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

環状RNA(circRNAs)を検出する ACValidator

 

 環状RNA(circRNAs)は、エキソンが互いにバックスプライスするときに形成される進化的に保存されたRNA分子種である。これらのバックススプライシングジャンクションを検出するための現在の計算アルゴリズムは分岐した結果を生じるので、それ故、真のポジティブcircRNAを区別する方法が必要とされている。この目的のために、本著者らはcircRNAのin silico検証ツール ACValidator(Assembly based CircRNA Validator)を開発した。 ACValidatorは、circRNAジャンクションの両側のユーザー定義ウィンドウからリードを抽出し、それらを組み合わせてコンティグを生成する。これらのコンティグは、バックスプライスジャンクションにまたがるコンティグを見つけるために、cirRNA配列に対してアライメントされる。シミュレートされたデータセットで評価した場合、ACValidatorは、平均10回のcircRNAをサポートするリードと少なくとも100 bpのリード長で、データセットに対して80%以上の感度と特異度を達成した。実験データセットにおいて、ACValidatorは、未処理のサンプルと比較して、リボヌクレアーゼRで処理されたサンプルについてより高い検証パーセンテージをもたらした。本著者らのワークフローは非polyA選択RNAseqデータセットに適用可能であり、実験的検証の候補選択戦略としても使用できる。すべてのワークフロースクリプトは、githubページから自由にアクセスできる。

 

インストール

ubuntu16.04のpython2.7.14環境でテストした(docker使用、ホストOS macos10.14)。

依存

  • Trinity assembler (tested with v2.3.1)
  • Python with pysam package installed (tested with v2.7.13)
  • Bowtie2 v2.3.0
  • Samtools v1.4
  • BWA v0.7.12
  • pysam

本体 Github

git clone https://github.com/tgen/ACValidator.git
cd ACValidator
pip install --user .

> python ACValidator/ACValidator_v1.py -h

# python ACValidator/ACValidator_v1.py -h

usage: ACValidator_v1.py [-h] -i INFILE -c COORDINATE -w WINDOW

                         [--log-filename LOG_FILENAME]

                         [--log-filemode LOG_FILEMODE]

                         [--log-format LOG_FORMAT] [--log-level LOG_LEVEL]

 

optional arguments:

  -h, --help            show this help message and exit

  -i INFILE, --infile INFILE

                        Input Sam file

  -c COORDINATE, --coordinate COORDINATE

                        Input coordinate file

  -w WINDOW, --window WINDOW

                        Window size

  --log-filename LOG_FILENAME

                        Filename to save logs

  --log-filemode LOG_FILEMODE

                        File mode for log file

  --log-format LOG_FORMAT

                        Formatting template string

  --log-level LOG_LEVEL

                        Minimum level for log emission

 

 

実行方法

 マッピングして得たsamファイルを指定する。

python ACValidator.py -i input.sam -c CircRNA_coordinate -w Window_size --log-filename Log.txt

出力ディレクトリにソートされたsam、抽出された領域のbamファイル、疑似リファレンスfastaファイル、アセンブルされたコンティグを含むtrinity fastaファイル等が出力される。  

 

引用

ACValidator: a novel assembly-based approach for in silico validation of circular RNAs
Shobana Sekar, Philipp Geiger, Jonathan Adkins, Geidy Serrano, Thomas Beach, Winnie S Liang

bioRxiv preprint first posted online Feb. 21, 2019