HIVのアミノ酸配列にアライメントを行う NucAmino

　ヒト免疫不全ウイルス1型（HIV-1）療法の分子標的は逆転写酵素（RT）、プロテアーゼおよびインテグラーゼを含む。これら遺伝子は臨床ラボで最も一般的にシーケンシングされた遺伝子の1つである。多くの国で、これらの遺伝子は、HIV-1薬物療法を開始する前の患者および治療中のウイルス障害を有する患者において、日常的にシーケンシングされる。このようなシーケンシングは、通常、直接ポリメラーゼ連鎖反応（PCR）とサンガーシーケンシングを用いて行われる。次いでヌクレオチド配列を参照アミノ酸配列にアライメントさせて、薬物感受性の低下に関連するアミノ酸置換、挿入および欠失を同定する。

　現在のLocal Alignment Program（LAP）[論文より、ref.1]やGeneWise [ref.2]などのヌクレオチドからアミノ酸へのアライメントプログラムは、主に真核生物ゲノムの遺伝子エクソンを検出するために開発されたため、長い遺伝子配列をスピーディに検索したりイントロン - エクソン境界を識別することに焦点が置かれている。著者らは、遺伝子発見よりもむしろウイルスシーケンシングのために最適化されたヌクレオチド - アミノ酸アラインメントプログラムを開発しようとした。本著者らのプログラムは、電気泳動でもmixureになってしまうため、通常シーケンシングされたサンプル内に複数のウイルス変異体を反映しIUPACの曖昧なコドンに対処可能なようにデザインされた。

　さらに重要なことに、ウイルスのgenotypingでは、最適化されたアラインメントで挿入または欠失が置かれるポジションとは異なる特定のポジションに、特定の挿入または欠失が配置される必要がある。例えば、残基64〜72のHIV-1 RTβ3-β4ループにおける挿入は、伝統的に残基69に配置される。なぜなら、ほとんどの遺伝子型耐性解釈ソフトウェアは、この挿入（しかし、近くの同様の挿入では扱わない）をいくつかの逆転写阻害剤[ref.3,4]に高い耐性なるものとして扱うためである。この問題は、非常に可変性のウイルスでは、indels周辺のヌクレオチドおよびアミノ酸の変化が、ペアワイズアライメントでのindel配置にしばしば影響するために生じる。

　ここでは、ウイルスヌクレオチド配列をリファレンスアミノ酸配列にアライメントさせるために設計されたNucAminoと呼ばれるプログラムについて説明する。著者らは115,118人からのHIV-1分析についてこのプログラムの性能をLAPと比較する。また、これらの配列を用いてNucAminoをJAlignerと比較した。これは、2つのヌクレオチド配列をアライメントさせるためのSmith-Watermanアルゴリズムの一般的な実装である[ref.5,6]。我々（著者ら）は、NucAminoが、電気泳動mixtureを含むpolymorphicなウイルス配列を扱い、HIV-1遺伝子型耐性試験を実施する臨床検査ラボに有用な可能性が高いことを示す。

インストール

mac os10.14のminiconda2-4.0.5環境でテストした。

依存

NucAmino is a program written in Go programming language. You need to have Go installed to compile it.

本体 Github

#Anaconda環境ならcondaで導入できる
conda install -c bioconda -y nucamino

> nucamino --help

$ nucamino --help

Usage:

nucamino [OPTIONS] <hiv1b>

Help Options:

-h, --help Show this help message

Available commands:

hiv1b Align HIV-1 type B sequences

> nucamino hiv1b -h

$ nucamino hiv1b -h

Usage:

nucamino [OPTIONS] hiv1b [hiv1b-OPTIONS]

Use HIV-1 type B consensus from LANL to align input sequences; support genes POL (56gag + 99PR + 560RT + 288IN)

Help Options:

-h, --help Show this help message

[hiv1b command options]

-q, --quiet hide non-error information output

-g, --gene=[GAG|POL|GP41] gene(s) the input sequences should be aligned with

--indel-codon-opening-bonus=BONUS bonus score when a indel codon was opened (default: 0)

--indel-codon-extension-bonus=BONUS bonus score when a indel codon was extended (default: 2)

--stop-codon-penalty=PENALTY penalty score when a stop codon was met (default: 4)

--gap-opening-penalty=PENALTY penalty score when a gap was opened (default: 10)

--gap-extension-penalty=PENALTY penalty score when a gap was extended (default: 2)

--goroutines=GOROUTINES number of goroutines the alignment will use. Use the core number when equals to 0 (default: 0)

--output-format=OUTPUT_FORMAT[tsv|json] output format of the alignment result (default: tsv)

File Options:

-i, --input=INPUT FASTA file contains one or more DNA sequences (default: -)

-o, --output=OUTPUT output destination of the alignment results (default: -)

Pprof Options:

--pprof output pprof benchmark result

docker イメージのビルド

git clone https://github.com/hivdb/nucamino.git
cd nucamino/
make build

実行方法

クエリのfastaと、HIVのアライメント対象遺伝子（GAG、POL、GP41）を選ぶ。

nucamino hiv1b --input=input.fasta --gene=POL --output-format=tsv

--gene=[GAG|POL|GP41] gene(s) the input sequences should be aligned with
--input= fasta file contains one or more DNA sequences (default: -)
--output= output destination of the alignment results (default: -)