2020 12/7 論文引用
2023/07/25 ツイート追記
複数シーケンスのアラインメントにおける発散性の高い部位は、相同性の誤った推論や置換の飽和に起因しており、系統推論に悪影響を及ぼすと考えられている。トリミング手法は、系統推論の前にこれらのサイトを除去することを目的としているが、最近の解析では、そうすることで推論を悪化させる可能性があることが示唆されている。その代わりに、系統的に有益なサイトを保持することを目的としたトリミング手法であるClipKITを紹介する。ClipKITでトリミングしたアラインメントを用いた系統推論は、正確で、ロバストで、時間を節約できる。
Multiple sequence alignment #trimming methods often lead to worse #phylogenetic inferences indicating a need for alt methods. We developed a simple yet innovative algorithm, #ClipKIT, and noted its a top performing software across ~140k alignments 🔗https://t.co/OBG4KUYrwP pic.twitter.com/5lxhEu9F8w
— Jacob L Steenwyk (@jlsteenwyk) 2020年6月11日
2023/07/25
Dear #ClipKIT users,
— 🧬Jacob L Steenwyk (@jlsteenwyk) 2023年7月24日
We have been hard at work to address your #1 request: a browser-based version of ClipKIT. We have privately released #beta version and are seeking feedback from a focus group of users.
DM me for the link and beta-test the future of ClipKIT! pic.twitter.com/9aLKOXz7ol
インストール
pip install clipkit
#from repository
git clone https://github.com/JLSteenwyk/ClipKIT.git
cd ClipKIT/
python -m venv .venv
source .venv/bin/activate
make install
> clipkit -h
$ clipkit -h
_____ _ _ _ _______ _______
/ ____| (_) | |/ /_ _|__ __|
| | | |_ _ __ | ' / | | | |
| | | | | '_ \| < | | | |
| |____| | | |_) | . \ _| |_ | |
\_____|_|_| .__/|_|\_\_____| |_|
| |
|_|
Citation: Steenwyk et al. bioRxiv.
https://www.biorxiv.org/content/10.1101/2020.06.08.140384v1
ClipKIT trims multiple sequence alignments and maintains phylogenetically informative sites.
Usage: clipkit <input> [optional arguments]
required arguments:
<input> input file
(must be the first argument)
optional arguments:
-o, --output <output_file_name> output file name
(default: input file named with '.clipkit' suffix)
-m, --modes <gappy, trimming mode
kpic (alias: medium), (default: gappy)
kpic-gappy (alias: medium-gappy),
kpi (alias: heavy),
kpi-gappy (alias: heavy-gappy)>
-g, --gaps <threshold of gaps> specifies gaps threshold
(default: 0.9)
-if, --input_file_format <file_format> specifies input file format
(default: auto-detect)
-of, --output_file_format <file_format> specifies output file format
(default: same as input file format)
-l, --log creates a log file
(input file named with '.log' suffix)
-c, --complementary creates complementary alignment of trimmed sequences
(input file named with '.log' suffix)
-h, --help help message
-v, --version print version
-------------------------------------
| Detailed explanation of arguments |
-------------------------------------
Modes
gappy: trim sites that are greater than the gaps threshold
kpic (alias: medium): keeps parismony informative and constant sites
kpic-gappy (alias: medium-gappy): a combination of kpic- and gappy-based trimming
kpi (alias: heavy): keep only parsimony informative sites
kpi-gappy (alias: heavy-gappy): a combination of kpi- and gappy-based trimming
Gaps
Positions with gappyness greater than threshold will be trimmed.
Must be between 0 and 1. (Default: 0.9). This argument is ignored
when using the kpi mode of trimming.
Input and output file formats
Supported input and output files include:
fasta, clustal, maf, mauve, phylip, phylip-sequential,
phylip-relaxed, and stockholm
Log
Creates a log file that summarizes the characteristics of each position.
The log file has four columns.
- Column 1 is the position in the alignment (starting at 1),
- Column 2 reports if the site was trimmed or kept (trim and keep, respectively),
- Column 3 reports if the site is a parsimony informative site or not (PI and nPI, respectively), or
a constant site or not (Const, nConst), or neither (nConst, nPI)
- Column 4 reports the gappyness of the the position (number of gaps / entries in alignment)
Complementary
Creates an alignment file of only the trimmed sequences
実行方法
アラインメント間でギャップが多い領域(default: 0.9)をトリミングする。
clipkit input.aln
#指定するなら、
clipkit input.aln -m gappy -o output
- -m trimming mode
kpic (alias: medium) (default: gappy)
kpic-gappy (alias: medium-gappy),
kpi (alias: heavy),
kpi-gappy (alias: heavy-gappy)>
ログファイル(レポートも兼ねる)を出力する。
clipkit input.aln -l
- -l creates a log file (input file named with '.log' suffix)
1塩基ごとに表示される。
ログファイルに加えて、トリミングされた部位のアラインメントファイルも出力する。
clipkit input.aln -l -c
- -c creates complementary alignment of trimmed sequences (input file named with '.log' suffix)
コマンドについてはPreprintも確認して下さい。
引用
ClipKIT: a multiple sequence alignment-trimming algorithm for accurate phylogenomic inference
Jacob L. Steenwyk, Thomas J. Buida III, Yuanning Li, Xing-Xing Shen, Antonis Rokas
bioRxiv, Posted June 10, 2020
2020 12/7
ClipKIT: A multiple sequence alignment trimming software for accurate phylogenomic inference
Jacob L Steenwyk, Thomas J Buida 3rd, Yuanning Li , Xing-Xing Shen, Antonis Rokas
PLoS Biol. 2020 Dec 2;18(12)
関連