macでインフォマティクス

macでインフォマティクス

NGS関連のインフォマティクス情報についてまとめています。

IRLとIRRに挟まれたトランスポゾンを検出する panISa

 

 panISaソフトウェアは、ショートリードデータから、最初に(すなわち、データベースを含まないアプローチで)NGSデータ上の挿入配列を検索する。 手短に言えば、ソフトウェアは、潜在的なISの開始位置および終了位置上のクリップされたリードを数えることによってアラインメント中の挿入サインを同定する。 これらのクリップされたリードは、IS挿入部位のダイレクトリピートとオーバーラップしている。 最後に、panISaはISの両側(IRLとIRR)の先頭を再構成して、inverted repeat領域を検索することによってISをvalidateする。

 

f:id:kazumaxneo:20190301173547j:plain

Githubより転載

 

ローカルマシンへのインストール

ubuntu16.04のminiconda3.4.0.5環境でテストした。

依存

The program used the python library pysam (>=0.9) and request (>=2.12)

sudo apt update && apt install python-pysam python-requests emboss

本体 GIthub

#pipで導入できる
pip install nanoQC

 >  panISa.py -h

$ panISa.py -h

usage: panISa.py [options] bam

 

Search integrative element (IS) insertion on a genome using BAM alignment

 

positional arguments:

  bam                   Alignment on BAM/SAM format

 

optional arguments:

  -h, --help            show this help message and exit

  -o [OUTPUT], --output [OUTPUT]

                        Return list of IS insertion by alignment,

                        default=stdout

  -q [QUALITY], --quality [QUALITY]

                        Min alignment quality value to conserve a clipped

                        read, default=20

  -m [MINIMUN], --minimun [MINIMUN]

                        Min number of clipped reads to look at IS on a

                        position, default=10

  -s [SIZE], --size [SIZE]

                        Maximun size of direct repeat region, default=20pb

  -p [PERCENTAGE], --percentage [PERCENTAGE]

                        Minimum percentage of same base to create consensus,

                        default=0.8

  -v, --version         show program's version number and exit

 

テストラン

bamを指定する(bwa推奨)。

git clone https://github.com/bvalot/panISa.git
cd panISa/
panISa.py test/test.bam

出力

Chromosome End position End clipped reads Direct repeats Start position Start clipped reads Inverted repeats Left sequence Right sequence

contig-2000003 334451 59 GTCCTGGAGC 334442 40 No IR CAATGTCATCAACTTTGGAAATTATCCATAAATATCATATAATTAGCGCTCAAATCAGTGCATGGGAGNNGNC NNNNNGGCCATGGCGGCTGGCTGCTTCGGGGGGCTTGCCTTGGGCAGGGCTGCAGCTTAGGTTGATGACATTG

 

 

引用

GitHub - bvalot/panISa: panISa is a software to search insertion sequence (IS) on resequencing data (bam file)