macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

性染色体のロングリードソート法 SRY

 

 現在公開されているリファレンスゲノムの多くは、性染色体の配列マップがなく、アセンブルが完成していないのが現状である。近年のロングリード塩基配列解析や集団配列解析の進歩により、従来のような複雑な実験を必要とせずに性染色体のアセンブルが可能となってきている。本研究では、性染色体から得られたロングリードのソートとアセンブルを高効率で行う計算手法を紹介する。これにより、完全なリファレンスゲノムが得られ、性染色体の下流研究が容易になる。

 

SRYは、性転換染色体(YまたはW染色体)のロングリードソーティングのための in silico法である。従来の染色体フローソート法と比較して、およそ1倍以上のソート効率を示す。全ゲノムアセンブリ(WGA)やトリオビニングに比べて、SRYはY染色体のゲノム領域をより多くカバーしている。SRYは、XY男性のようなターゲット個体の半深度k-merを選択し、集団データに基づいてX染色体やオートソームから離散的なk-merを除去することで、男性特有のk-merを同定する。集団構造とシーケンスエラーの影響を減少させるために、SRYはロングリードのMSK(男性特異的なk-mer)密度を説明し、より低いマーカー密度を持つものを除外する。

 

 

インストール 

依存

  • samtools
  • seqtk

Github

git clone https://github.com/caaswxb/SRY.git
cd SRY/
chmod u+x SRY

./SRY

$ ./SRY 

readlink: illegal option -- f

usage: readlink [-n] [file ...]

usage: dirname path

Author:Xiaobo Wang

Email:wangxiaobo@caas.cn

 

Usage: ./SRY (parameters with * must be supplied!)

 

-s <string>*       Short-read files of targeted genomes with comma separated

-m <string>*       Male short-read files with comma separated

-f <string>*       Female short-read files with comma separated

-l <string>*       Long-read files of targeted genomes with comma separated (support for both fa and fq)

-g <number>*       Approximate genome size of targeted Y/W chromosome. (The unit is Megabase,DO NOT add the suffix "M" or "m")

-i <int>*          Minimum coverage of k-mers (the depth of the first valley in k-mer distribution plotted by KmerGenie or other tools)

-a <int>           Maximum coverage of k-mers (default: unlimit)

-k <int>           K-mer length (default: 21)

-h                 Help and exit.

 

 

 

実行方法

必須パラメータは以下の5つになる。preprintに記載されている実行コマンドは以下の通り。

SRY -s HX1.fq.gz -m male-population.fq.gz -f female-population.fq.gz -l HX1.long-reads.fasta.gz -g 52 -i 27
  • -s    Short-read files of targeted genomes with comma separated
  • -m   Male short-read files with comma separated
  • -f     Female short-read files with comma separated
  • -l     Long-read files of targeted genomes with comma separated, (support fa or fq)
  • -g    Approximate genome size of targeted Y chromosome. (The unit is Mb,do NOT add the suffix "M")

 

引用

SRY: An Effective Method for Sorting Long Reads of Sex-limited Chromosome

Xiao-Bo Wang, Qing-You Liu, A-Lun Li, Jue Ruan

bioRxiv, Posted May 28, 2020

 

関連