macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

IRLとIRRに挟まれたトランスポゾンのab initio挿入を 高感度に検出する panISa

20210910 誤字修正

2021 12/27 追記

2022 1/4 インストール手順変更

 

 panISaソフトウェアは、ショートリードデータから、最初に(すなわち、データベースを含まないアプローチで)NGSデータ上の挿入配列を検索する。 手短に言えば、ソフトウェアは、潜在的なISの開始位置および終了位置上のクリップされたリードを数えることによってアラインメント中の挿入サインを同定する。 これらのクリップされたリードは、IS挿入部位のダイレクトリピートとオーバーラップしている。 最後に、panISaはISの両側(IRLとIRR)の先頭を再構成して、inverted repeat領域を検索することによってISをvalidateする。

 

f:id:kazumaxneo:20190301173547j:plain

Githubより転載

 

ローカルマシンへのインストール

ubuntu16.04のminiconda3.4.0.5環境でテストした。

依存

The program used the python library pysam (>=0.9) and request (>=2.12)

sudo apt update && apt install python-pysam python-requests emboss

本体 GIthub

mamba create -n panISA python=3.8 -y
conda activate panISA
#pipで導入できる
pip install panisa

 >  panISa.py -h

$ panISa.py -h

usage: panISa.py [options] bam

 

Search integrative element (IS) insertion on a genome using BAM alignment

 

positional arguments:

  bam                   Alignment on BAM/SAM format

 

optional arguments:

  -h, --help            show this help message and exit

  -o [OUTPUT], --output [OUTPUT]

                        Return list of IS insertion by alignment,

                        default=stdout

  -q [QUALITY], --quality [QUALITY]

                        Min alignment quality value to conserve a clipped

                        read, default=20

  -m [MINIMUN], --minimun [MINIMUN]

                        Min number of clipped reads to look at IS on a

                        position, default=10

  -s [SIZE], --size [SIZE]

                        Maximun size of direct repeat region, default=20pb

  -p [PERCENTAGE], --percentage [PERCENTAGE]

                        Minimum percentage of same base to create consensus,

                        default=0.8

  -v, --version         show program's version number and exit

 

テストラン

bamを指定する(bwa推奨)。感度は関連するリードのリードデプスでのみ調整可能になっている。感度が高すぎるなら”-m <INT>”でリード数の閾値を増やす。

git clone https://github.com/bvalot/panISa.git
cd panISa/
panISa.py test/test.bam > output
  • -m    Min number of clipped reads to look at IS on a position, default=10

     

出力

Chromosome End position End clipped reads Direct repeats Start position Start clipped reads Inverted repeats Left sequence Right sequence

contig-2000003 334451 59 GTCCTGGAGC 334442 40 No IR CAATGTCATCAACTTTGGAAATTATCCATAAATATCATATAATTAGCGCTCAAATCAGTGCATGGGAGNNGNC NNNNNGGCCATGGCGGCTGGCTGCTTCGGGGGGCTTGCCTTGGGCAGGGCTGCAGCTTAGGTTGATGACATTG

ランタイムは非常に短い。細菌のbamだと10秒程度で結果が得られる。深く読まれたデータなら、不完全(=集団の全体には起こっていないISイベント)なISの挿入も検出できる。

 

2021 12/27

結果をISFinderデータベースに問い合わせる。ネットに繋がっている必要がある。

ISFinder_search.py panISa_results  > results

ISFinderのISとアサインされたクエリには右端にそのIS名が付く。

 

引用

GitHub - bvalot/panISa: panISa is a software to search insertion sequence (IS) on resequencing data (bam file)

 

panISa: ab initio detection of insertion sequences in bacterial genomes from short read sequence data

Panisa Treepong, Christophe Guyeux, Alexandre Meunier , Charlotte Couchoud , Didier Hocquet, Benoit Valot

Bioinformatics. 2018 Nov 15;34(22):3795-3800

 

2021 Deciphering the role of insertion sequences in the evolution of bacterial epidemic pathogens with panISa software

Charlotte Couchoud , Xavier Bertrand , Benoit Valot , Didier Hocquet

Microb Genom. 2020 Jun;6(6):e000356. 

 

関連

ゲノム中のISをスキャンする(アノテーションをつける)。ISの配列も出力される。