macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

Genomic featureの座標を変更する UCSC liftOver

 

 ヒトの場合は代表的なリファレンスゲノムもいまだ不完全であり、更新が繰り返されている。また、ゲノムがFinishしているスモールゲノムでも、株や系統の違いによる座標の違いがあり、研究によってはリファレンスゲノムを更新し、coding reginやexonなどのgenomic featureを更新することが必要になる。このようなGenomic featureの座標の変換作業には、UCSCの"liftOver"が利用できる。liftOverツールを使うと、例えばヒトのGRC37(NCBI build 37)からGRCh38(*1, *2)への更新などを簡単に実行できる。

 

注意

ここで説明する手順は、UCSCで管理されている代表的なモデル生物ゲノムのみに対応しています。

 

liftOverについて

https://genome.sph.umich.edu/wiki/LiftOver

 

chain format

https://genome.ucsc.edu/goldenPath/help/chain.html

 

インストール

liftOverコマンドはlinuxの(スタティックリンクの)バイナリとして配布されており、ダウンロードして実行権をつけるだけで利用できる。

#bioconda (link) (mac, linux)
conda install -c bioconda -y ucsc-liftover

#binary (linux)
wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver
chmod +x liftOver

liftOver

$ liftOver 

liftOver - Move annotations from one assembly to another

usage:

   liftOver oldFile map.chain newFile unMapped

oldFile and newFile are in bed format by default, but can be in GFF and

maybe eventually others with the appropriate flags below.

The map.chain file has the old genome as the target and the new genome

as the query.

 

***********************************************************************

WARNING: liftOver was only designed to work between different

         assemblies of the same organism. It may not do what you want

         if you are lifting between different organisms. If there has

         been a rearrangement in one of the species, the size of the

         region being mapped may change dramatically after mapping.

***********************************************************************

 

options:

   -minMatch=0.N Minimum ratio of bases that must remap. Default 0.95

   -gff  File is in gff/gtf format.  Note that the gff lines are converted

         separately.  It would be good to have a separate check after this

         that the lines that make up a gene model still make a plausible gene

         after liftOver

   -genePred - File is in genePred format

   -sample - File is in sample format

   -bedPlus=N - File is bed N+ format (i.e. first N fields conform to bed format)

   -positions - File is in browser "position" format

   -hasBin - File has bin value (used only with -bedPlus)

   -tab - Separate by tabs rather than space (used only with -bedPlus)

   -pslT - File is in psl format, map target side only

   -ends=N - Lift the first and last N bases of each record and combine the

             result. This is useful for lifting large regions like BAC end pairs.

   -minBlocks=0.N Minimum ratio of alignment blocks or exons that must map

                  (default 1.00)

   -fudgeThick    (bed 12 or 12+ only) If thickStart/thickEnd is not mapped,

                  use the closest mapped base.  Recommended if using 

                  -minBlocks.

   -multiple               Allow multiple output regions

   -noSerial               In -multiple mode, do not put a serial number in the 5th BED column

   -minChainT, -minChainQ  Minimum chain size in target/query, when mapping

                           to multiple output regions (default 0, 0)

   -minSizeT               deprecated synonym for -minChainT (ENCODE compat.)

   -minSizeQ               Min matching region size in query with -multiple.

   -chainTable             Used with -multiple, format is db.tablename,

                               to extend chains from net (preserves dups)

   -errorHelp              Explain error messages

 

 

実行方法 

A、コマンド使用

変換するBED、またはGFFファイルはあらかじめ用意しておく必要がある。

1、UCSC Genome Browser Downloads にアクセスし、該当する生物のゲノムバージョンに移動。 LiftOver filesのリンクをクリックする。f:id:kazumaxneo:20190818172202p:plain

 

該当する.over.chain.gzファイルをダウンロードする。

f:id:kazumaxneo:20190818172353p:plain

変換する。ダウンロードしたover.chainファイル、変換前のBED、出力のBED、アンマップのBEDを指定する。

iftOver input.bed over.chain output.bed unmapped.bed

-gffをつけるとGFFファイルの変換に対応する。

 

B、web browserで実行

1、https://genome.ucsc.edu/cgi-bin/hgLiftOverにアクセスする。

f:id:kazumaxneo:20190818165940p:plain

はじめにリファレンスゲノムを指定する。 

 

2、ここではhumanのhg18からhumanのhg19への変換を試みる。

f:id:kazumaxneo:20190818170159p:plain

項目を選択していく。

 

変換するBEDファイルを左下のボタンからアップロードする。パラメータも必要なら修正する。

f:id:kazumaxneo:20190818173752p:plain

X染色体のBED(BED12)を変換したところ、数秒で結果のリンクが返された。

 

 

引き続き、EnsemblNCBIの座標変換ツールを紹介します。

参考

*1

https://bitesizebio.com/38335/get-to-know-your-reference-genome-grch37-vs-grch38/

*2

http://lh3.github.io/2017/11/13/which-human-reference-genome-to-use

 

https://genviz.org/module-01-intro/0001/06/02/liftoverTools/

 

http://non-bioinfomatician.blogspot.com/2013/09/liftover.html