macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

核酸配列の多重整列のための統合リアラインメントアプローチ ReAlign-N

 

 正確な多重配列アライメント(MSA)は、包括的な生物学的配列解析に不可欠である。しかしながら、進化関係が複雑であるため、一般的なアラインメントツールでは十分に対応できない変異がしばしば生じる。この問題を解決するためには、リアラインメントが極めて重要である。現在のところ、核酸配列、特に長さの長い配列に合わせたリアラインメント手法が不足している。したがって、このような課題に対処するために、より適したリアラインメント手法の開発が急務である。本研究では、複数の核酸配列のアライメントに特化したリアラインメント手法ReAlign-Nを紹介する。ReAlign-Nは、精度を向上させるために、グローバルリアラインメントとローカルリアラインメントの両方の戦略を統合している。 ローカルリアラメントステージでは、フルマッチングとエントロピースコアリング法を用いて低品質領域を特定し、MAFFTによりリアラインメントを行う。実験結果は、ReAlign-Nがシミュレーションおよび実際のデータセット上で一貫して初期アライメントを上回ることを示している。さらに、既存の唯一の複数核酸配列リアラインメントツールであるReformAlignと比較して、ReAlign-Nはより短い実行時間とより少ないメモリ容量を示す。ReAlign-NのソースコードとテストデータはGitHub (https://github.com/malabz/ReAlign-N)で公開されている。

 

インストール

Github

mamba create -n realign_n_env
conda activate realign_n_env

#2 Add channels to conda
conda config --add channels malab
#3 Install ReAlign-N
mamba install -c malab realign_n -y

> realign_n -h

Usage: /.realign_n [-r] path [-a] path [-o] path [-m] mode

 

  Necessary arguments:

    -r  Specify the path of raw data, a file in FASTA format.

    -a  Specify the path of initial alignment, a file in FASTA format.

 

  Optional arguments:

    -o  Specify the output for ReAlign-N, a file in FASTA format.

    -m  Specify the minium split distance of match (default based on the similarity).

    -e  Specify the minium split distance of entropy (default based on the similarity).

    -p  Specify the pattern of ReAlign-N (default pattern: 1).

          1 for local realignment followed by global realignment.

          2 for global realignment followed by local realignment.

    -h  Print the help message.

 

テストラン

wget http://lab.malab.cn/soft/ReAlign-N/data/16s_like.tar.gz
tar -zxvf 16s_like.tar.gz
cd 16s_like
realign_n -r raw_data/simu/16s_similarity_70_1.fas -a msa_results/16s_similarity_70_1_clustalo.fas -o out.aln -p 1
  • -r      Specify the path of raw data, a file in FASTA format.
  • -a     Specify the path of initial alignment, a file in FASTA format.
  • -o     Specify the output for ReAlign-N, a file in FASTA format.
  • -p     Specify the pattern of ReAlign-N (default pattern: 1).
              1 for local realignment followed by global realignment.
              2 for global realignment followed by local realignment.

 

> seqkit stats raw_data/simu/16s_similarity_70_1.fas out.aln

 

レポジトリより

  • 現在、ReAlign-NはDNA/RNAにのみ利用可能
  • 配列にはAGCT(DNAの場合)またはAGCU(RNAの場合)のみを含むことを想定している
  • ReAlignに入力された配列IDが一意であること
    ReAlign-Nの利用にはMAFFTのインストールが必要

引用

ReAlign-N: an integrated realignment approach for multiple nucleic acid sequence alignment, combining global and local realignments 

Yixiao Zhai, Tong Zhou, Yanming Wei, Quan Zou, Yansu Wang

NAR Genomics and Bioinformatics, Volume 6, Issue 4, December 2024, lqae170

 

関連