macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

ONTのロングリードからコンセンサス配列を作成するlamassemble

 

 多くの遺伝的/ゲノム障害は、ゲノムのリアレンジメントによって引き起こされる。標準的な方法では、多くの場合、これらの変異を部分的にしか特徴づけることができない(例えば、コピー数変化やブレークポイント)。リアレンジメントの病原性を知るためには、正確なブレークポイントを用いてリアレンジされた断片の順序や配向を完全に理解することが重要である。
 染色体転座を有する4人の患者からの全ゲノムをカバーするナノポアロングリードシークエンシングを行った。33人の対照群のいずれかに共通するリアレンジメントを差し引いてリファレンスヒトゲノムと比べてリアレンジメントを同定し、新たに開発した解析パイプラインを用いてリアレンジメント断片の順序と配向を決定した。
 同じ疾患を持たない対照群に見られるゲノムリアレンジメントをフィルタリングして、患者一人当たりの遺伝子座の数を数千から数十に減らし、複雑な染色体リアレンジメントの完全な特徴付けを行った。ブレークポイントの検出は非常に正確であり、通常、サンガー・シーケンシングで確認されたブレークポイントとの差は0±1塩基である。2つの染色体転座を持つ1人の患者については、転座点が5本の染色体を含む複数のDNA断片の複雑なリアレンジメントを持っていることがわかった。自動アルゴリズムによって順序付けと方向付けを行い、リアレンジメントを完全に再構築することができた。リアレンジメントはその部分の総和以上のものであり、配列欠損のようないくつかの性質は、リアレンジメント全体を再構築して初めて推測できるものである。この患者では、リアレンジメントは明らかに染色体が複数の断片に砕け散り、いくつかの断片が失われて異なる順序と向きで再結合したことによって引き起こされた。
 先天性疾患の染色体異常を、良性の変化のみをフィルタリングして見つけるための解析パイプラインを開発した。著者らが開発した複雑なリアレンジメントの再構成アルゴリズムは、多くのブレークポイントを持つリアレンジメント、例えば染色体異常などの解釈に有用である。本アプローチは、多くの先天性生殖細胞のリアレンジメントを完全に特徴づけることを約束する。

 

 

ここではlamassembleを紹介する。

インストール

GitLab

conda create -n lamassemble python=3.8 -y
conda activate lamassemble
conda install -c bioconda lamassemble -y

lamassemble

$ lamassemble

Usage: lamassemble [options] last-train.out sequences.fx > consensus.fa

 

Merge DNA sequences into a consensus sequence.

 

Options:

  -h, --help            show this help message and exit

  -a, --alignment       print an alignment, not a consensus

  -c, --consensus       just make a consensus, of already-aligned sequences

  -g G, --gap-max=G     use alignment columns with <= G% gaps (default=50)

  --end                 ... including gaps past the ends of the sequences

  -s S, --seq-min=S     omit consensus flanks with < S sequences (default=1)

  -n NAME, --name=NAME  name of the consensus sequence (default=lamassembled)

  -o BASE, --out=BASE   just write MAFFT input files, named BASE.xxx

  -p P, --prob=P        use pairwise restrictions with error probability <= P

                        (default=0.002)

  -d D, --diagonal-max=D

                        max change in alignment diagonal between pairwise

                        alignments (default=1000)

  -v, --verbose         show progress messages

  --all                 use all of each sequence, not just aligning part

  --mafft=ARGS          additional arguments for MAFFT

 

  LAST options:

    -P P                number of parallel threads (default=1)

    -W W                use minimum positions in length-W windows (default=19)

    -m M                max initial matches per query position (default=5)

    -z Z                max gap length (default=30)

 

実行方法

LASTのtrainファイルとロングリード(fasta,fastq ,raw or gz)を指定する。

lamassemble last-train.mat sequences.fx > consensus.fa

ラン後には1つのコンセンサス配列として出力される。

 

テストラン

git clone https://gitlab.com/mcfrith/lamassemble.git
cd lamassemble/tests/
./lama-tests.sh

lamassemble rel3-4-train.mat group25.fa > consensus.fa

trainファイル作成の詳細はLAST-rnaレポジトリ参照。ロングリードを自身のゲノムにアラインして作成する。

 

引用

A pipeline for complete characterization of complex germline rearrangements from long DNA reads

Satomi Mitsuhashi, Sachiko Ohori, Kazutaka Katoh, Martin C. Frith & Naomichi Matsumoto
Genome Medicine volume 12, Article number: 67 (2020)