macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ゲノムアセンブリを修正したりscaffoldingするためのツールコレクション RagTag

 

 作物のゲノム解析を進めるためには、高品質な個別ゲノムアセンブリによる効率的な遺伝子システムが必要である。ここでは、アセンブリーのscaffoldingやパッチを自動化するツールセットであるRagTagを紹介し、広く使われているトマトの遺伝子型M82と、機能的ゲノミクスやゲノム編集を加速するために開発した rapid-cyclingのジェノタイプSweet-100について、染色体規模のリファレンスゲノムを確立した。この研究は、他の植物種における遺伝システムとゲノムリソースを迅速に拡張するための戦略を示している。

RagTagは、以前に発表したRaGOO scaffolderに代わって、ホモロジーベースのcorrectionとscaffoldingモジュールに改良を加え、「patch」と「merge」と呼ばれる2つの新しいscaffoldingツールを提供している。RagTag "patch "は、1つのゲノムアセンブリを使用して、2つ目のゲノムアセンブリの足場となる結合部を作り、ギャップを埋める(論文Fig.2b)。これは、CHM13「テロメア-2-テロメア」ヒトリファレンスアセンブリを正確にパッチすることで実証したように、HiFiやONTなどの相補的なシーケンス技術タイプを用いたゲノムアセンブリプロジェクトに特に有効である。RagTag "merge "はCAMSA scaffolderの拡張機能であり、与えられたアセンブリに対する複数のscaffold候補を調整する(論文図2c)。これにより、ユーザーは潜在的に複数のマップまたはマップ固有の技術的パラメータを持つアセンブリを足場とし、その結果を単一のscaffoldソリューションに相乗的に結合することができる。入力されたscaffoldは、コンティグをノードとし、コンティグの配置の信頼度で重み付けされたエッジを持つ「スキャフォールド・グラフ」内にエンコードされる。RagTagはこのグラフを解析して曖昧なパスを解決し、オプションとしてHi-Cデータを使用してエッジを再重み付けする。

 

Wiki

https://github.com/malonge/RagTag/wiki

 

f:id:kazumaxneo:20211125223758p:plain

(マニュアルより)

 

 

インストール

依存

  • Minimap2, Unimap, or Nucmer
  • Python 3 (with the following auto-installed packages)
  • numpy
  • intervaltree
  • pysam
  • networkx

Github

#conda (link)
mamba create -n ragtag
conda activate ragtag
mamba install -c bioconda ragtag -y

#pip (pypi)
pip install RagTag

#source
git clone https://github.com/malonge/RagTag
cd RagTag
python3 setup.py install

> ragtag.py

RagTag: Tools for fast and flexible genome assembly scaffolding and improvement.

Version: v2.1.0

 

usage: ragtag.py <command> [options]

    

    assembly improvement:

      correct         homology-based misassembly correction

      scaffold        homology-based assembly scaffolding

      patch           homology-based assembly patching

      merge           scaffold merging

      

    file utilities:

      agp2fa          build a FASTA file from an AGP file

      agpcheck        check for valid AGP file format

      asmstats        assembly statistics

      splitasm        split an assembly at gaps

      delta2paf       delta to PAF file conversion

      paf2delta       PAF to delta file conversion

      updategff       update gff intervals

      

 

    options:

      -c, --citation  

      -v, --version

 

 

 

実行方法

scaffold  -  相同性ベースのscaffolding

ターゲットのscaffolds配列と参照するゲノム配列を指定する。

ragtag.py scaffold ref.fasta query.fasta

ragtag_output/にragtag.scaffold.fastaが出力される。

 

merge  -  scaffoldsのマージ。Hi-Cテクノロジーにも対応している。

ragtag.py scaffold -o out_1 ref1.fasta query.fasta
ragtag.py scaffold -o out_2 ref2.fasta query.fasta
ragtag.py merge query.fasta out_*/*.agp other.map.agp

#Hi-C
ragtag.py merge -b hic.bam query.fasta out_*/*.agp other.map.agp

 

patch -  あるゲノムアセンブリを別のゲノムアセンブリに「パッチ」(あて布)するために使用する。

ragtag.py patch target.fa query.fa

 

correct-  リファレンスゲノムを使用して、クエリアセンブリ内の潜在的なミスアセンブリを修正する

 

他にもいくつかのユーティリティコマンドが利用できます。植物のゲノミクス関連分野の研究者の方は、プレプリントも大いに参考になると思います。アクセスしてみて下さい。

引用

Automated assembly scaffolding elevates a new tomato system for high-throughput genome editing
Michael Alonge, Ludivine Lebeigle,  Melanie Kirsche,  Sergey Aganezov, Xingang Wang, Zachary B. Lippman,  Michael C. Schatz, Sebastian Soyk

bioRxiv, Posted November 19, 2021

 

関連