ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgenomic featureを更新することが必要になる。このようなGenomic featureの座標の変換作業には、UCSCの"liftOver"が利用できる。liftOverツールを使うと、例えばヒトのGRC37(NCBI build 37)からGRCh38(*1, *2)への更新などを簡単に実行できる。
注意
ここで説明する手順は、UCSCで管理されている代表的なモデル生物ゲノムのみに対応しています。
liftOverについて
https://genome.sph.umich.edu/wiki/LiftOver
chain format
https://genome.ucsc.edu/goldenPath/help/chain.html
インストール
liftOverコマンドはlinuxの(スタティックリンクの)バイナリとして配布されており、ダウンロードして実行権をつけるだけで利用できる。
#bioconda (link) (mac, linux)
conda install -c bioconda -y ucsc-liftover
#binary (linux)
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver
chmod +x liftOver
> liftOver
$ liftOver
liftOver - Move annotations from one assembly to another
usage:
liftOver oldFile map.chain newFile unMapped
oldFile and newFile are in bed format by default, but can be in GFF and
maybe eventually others with the appropriate flags below.
The map.chain file has the old genome as the target and the new genome
as the query.
***********************************************************************
WARNING: liftOver was only designed to work between different
assemblies of the same organism. It may not do what you want
if you are lifting between different organisms. If there has
been a rearrangement in one of the species, the size of the
region being mapped may change dramatically after mapping.
***********************************************************************
options:
-minMatch=0.N Minimum ratio of bases that must remap. Default 0.95
-gff File is in gff/gtf format. Note that the gff lines are converted
separately. It would be good to have a separate check after this
that the lines that make up a gene model still make a plausible gene
after liftOver
-genePred - File is in genePred format
-sample - File is in sample format
-bedPlus=N - File is bed N+ format (i.e. first N fields conform to bed format)
-positions - File is in browser "position" format
-hasBin - File has bin value (used only with -bedPlus)
-tab - Separate by tabs rather than space (used only with -bedPlus)
-pslT - File is in psl format, map target side only
-ends=N - Lift the first and last N bases of each record and combine the
result. This is useful for lifting large regions like BAC end pairs.
-minBlocks=0.N Minimum ratio of alignment blocks or exons that must map
(default 1.00)
-fudgeThick (bed 12 or 12+ only) If thickStart/thickEnd is not mapped,
use the closest mapped base. Recommended if using
-minBlocks.
-multiple Allow multiple output regions
-noSerial In -multiple mode, do not put a serial number in the 5th BED column
-minChainT, -minChainQ Minimum chain size in target/query, when mapping
to multiple output regions (default 0, 0)
-minSizeT deprecated synonym for -minChainT (ENCODE compat.)
-minSizeQ Min matching region size in query with -multiple.
-chainTable Used with -multiple, format is db.tablename,
to extend chains from net (preserves dups)
-errorHelp Explain error messages
実行方法
A、コマンド使用
変換するBED、またはGFFファイルはあらかじめ用意しておく必要がある。
1、UCSC Genome Browser Downloads にアクセスし、該当する生物のゲノムバージョンに移動。 LiftOver filesのリンクをクリックする。
該当する.over.chain.gzファイルをダウンロードする。
変換する。ダウンロードしたover.chainファイル、変換前のBED、出力のBED、アンマップのBEDを指定する。
iftOver input.bed over.chain output.bed unmapped.bed
-gffをつけるとGFFファイルの変換に対応する。
B、web browserで実行
1、https://genome.ucsc.edu/cgi-bin/hgLiftOverにアクセスする。
はじめにリファレンスゲノムを指定する。
2、ここではhumanのhg18からhumanのhg19への変換を試みる。
項目を選択していく。
変換するBEDファイルを左下のボタンからアップロードする。パラメータも必要なら修正する。
X染色体のBED(BED12)を変換したところ、数秒で結果のリンクが返された。
引き続き、EnsemblとNCBIの座標変換ツールを紹介します。
参考
*1
https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/
*2
http://lh3.github.io/2017/11/13/which-human-reference-genome-to-use
https://genviz.org/module-01-intro/0001/06/02/liftoverTools/
http://non-bioinfomatician.blogspot.com/2013/09/liftover.html