20210910 誤字修正
2021 12/27 追記
2022 1/4 インストール手順変更
panISaソフトウェアは、ショートリードデータから、最初に(すなわち、データベースを含まないアプローチで)NGSデータ上の挿入配列を検索する。 手短に言えば、ソフトウェアは、潜在的なISの開始位置および終了位置上のクリップされたリードを数えることによってアラインメント中の挿入サインを同定する。 これらのクリップされたリードは、IS挿入部位のダイレクトリピートとオーバーラップしている。 最後に、panISaはISの両側(IRLとIRR)の先頭を再構成して、inverted repeat領域を検索することによってISをvalidateする。
Githubより転載
ローカルマシンへのインストール
ubuntu16.04のminiconda3.4.0.5環境でテストした。
依存
The program used the python library pysam (>=0.9) and request (>=2.12)
sudo apt update && apt install python-pysam python-requests emboss
本体 GIthub
mamba create -n panISA python=3.8 -y
conda activate panISA
#pipで導入できる
pip install panisa
> panISa.py -h
$ panISa.py -h
usage: panISa.py [options] bam
Search integrative element (IS) insertion on a genome using BAM alignment
positional arguments:
bam Alignment on BAM/SAM format
optional arguments:
-h, --help show this help message and exit
-o [OUTPUT], --output [OUTPUT]
Return list of IS insertion by alignment,
default=stdout
-q [QUALITY], --quality [QUALITY]
Min alignment quality value to conserve a clipped
read, default=20
-m [MINIMUN], --minimun [MINIMUN]
Min number of clipped reads to look at IS on a
position, default=10
-s [SIZE], --size [SIZE]
Maximun size of direct repeat region, default=20pb
-p [PERCENTAGE], --percentage [PERCENTAGE]
Minimum percentage of same base to create consensus,
default=0.8
-v, --version show program's version number and exit
テストラン
bamを指定する(bwa推奨)。感度は関連するリードのリードデプスでのみ調整可能になっている。感度が高すぎるなら”-m <INT>”でリード数の閾値を増やす。
git clone https://github.com/bvalot/panISa.git
cd panISa/
panISa.py test/test.bam > output
-
-m Min number of clipped reads to look at IS on a position, default=10
出力
Chromosome End position End clipped reads Direct repeats Start position Start clipped reads Inverted repeats Left sequence Right sequence
contig-2000003 334451 59 GTCCTGGAGC 334442 40 No IR CAATGTCATCAACTTTGGAAATTATCCATAAATATCATATAATTAGCGCTCAAATCAGTGCATGGGAGNNGNC NNNNNGGCCATGGCGGCTGGCTGCTTCGGGGGGCTTGCCTTGGGCAGGGCTGCAGCTTAGGTTGATGACATTG
ランタイムは非常に短い。細菌のbamだと10秒程度で結果が得られる。深く読まれたデータなら、不完全(=集団の全体には起こっていないISイベント)なISの挿入も検出できる。
2021 12/27
結果をISFinderデータベースに問い合わせる。ネットに繋がっている必要がある。
ISFinder_search.py panISa_results > results
ISFinderのISとアサインされたクエリには右端にそのIS名が付く。
引用
panISa: ab initio detection of insertion sequences in bacterial genomes from short read sequence data
Panisa Treepong, Christophe Guyeux, Alexandre Meunier , Charlotte Couchoud , Didier Hocquet, Benoit Valot
Bioinformatics. 2018 Nov 15;34(22):3795-3800
2021 Deciphering the role of insertion sequences in the evolution of bacterial epidemic pathogens with panISa software
Charlotte Couchoud , Xavier Bertrand , Benoit Valot , Didier Hocquet
Microb Genom. 2020 Jun;6(6):e000356.
関連
ゲノム中のISをスキャンする(アノテーションをつける)。ISの配列も出力される。