macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

生のメタゲノムシークエンシングリードからターゲットのタンパク質を読んだリードを同定する Lapidary

 

 ゲノムおよびメタゲノムの比較は、サンプル間で異なる、または共通する遺伝的エレメントを同定することに依存している。これらの遺伝的エレメントは、シークエンシングリードをアセンブルし、アセンブリ中の遺伝的エレメントを同定することによって、またはリード中のヌクレオチド配列をリファレンスの遺伝的エレメントのヌクレオチド配列に整列させることによって同定できる。前者は目的の遺伝的エレメントの完全なアセンブリに依存し、後者はヌクレオチドで表されたリファレンス配列に依存する。メタゲノムデータでは、遺伝子を含む遺伝的エレメントが断片化されていることが多く、その結果、遺伝的エレメント中やその周辺でコンティグが切断される。このことは、最初のアプローチで遺伝的エレメントを同定する際に困難をもたらす。メタゲノムで一般的なアプローチは、リファレンスの塩基配列に対してリードをマッピングし、それらのリファレンス配列からデプスとカバレッジを抽出することである。しかし、現在のところ、メタゲノム中のDNA-タンパク質アラインメントを用いて遺伝的エレメントを同定し、報告するソフトウェアは存在しない。本著者らは、ゲノムとメタゲノム両方のリードファイルからアミノ酸配列の同一性、カバレッジ、デプス、最も可能性の高い配列を同定するソフトウェアLapidaryを開発した。この手法の有効性を、シミュレートしたゲノムおよびメタゲノム・リード・データセットに対してテストした。Lapidaryは、メタゲノムアセンブリがより完全長に近い時はアセンブリによる方法よりも感度が劣っていたが、断片化が激しいメタゲノムアセンブリではアセンブリによる方法よりも感度が高かった。

 

web interface

lapidary.quadram.ac.uk

 

LapidaryはDiamondを使用してアミノ酸配列データベースとアライメントするリードを同定し、リードアライメントの翻訳セクションを使用してアミノ酸カバレッジ、同一性、平均リード深度を計算する。

インストール

依存

  • perl >=5.32
  • diamond >=2.1.7

Github

#環境を作る
mamba create -n Lapidary
conda activate Lapidary
mamba install -c bioconda diamond=2.1.9 -y #conda
mamba install bioconda::perl-lwp-simple -y
mamba install bioconda::perl-archive-extract -y

#
git clone https://github.com/samuelbloomfield/Lapidary.git
cd Lapidary/

#cpanm にも対応
cpanm App::lapidary

>  perl Lapidary.pl -h

Lapidary: a software for identifying amino acid sequences using sequenced reads

 

 

 Options:

 

 read_1 Location of first read file (required)

 

 

 read_2 Location of second read file if read files are paired

 

 

 db Full location to fasta file containing amino acid sequences (required)

 

 

 threads Number of threads to use for Diamond (default: 1)

 

 

 identity Diamond identity percentage cut-off to use (default: 70)

 

 

 coverage Diamond coverage percentage cut-off to use (default: 50)

 

 

 read_type Types of reads used (required): single or paired

 

 

 sequence_identification Method for calling most likely sequence: identity (default) or consensus

 

 

 help Display help screen

 

 

 version Return version of Lapidary

 

テストラン

シークエンシングリードと探索するタンパク質fastaのデータベースを指定する。

cd Lapidary/
#single-end
perl Lapidary.pl -read_1 Examples/Reads/Single_reads.fq.gz --read_type single -db Examples/Amino_acid_database.fasta

#paired-end
perl Lapidary.pl -read_1 Examples/Reads/Paired_reads_1.fq.gz -read_2 Examples/Reads/Paired_reads_2.fq.gz -read_type paired -db Examples/Amino_acid_database.fasta

 

出力例

リード単位の出力から、タンパク質ごとにヒット数と平均デプス 、参照アミノ酸配列およびリード間のタンパク質同一性、あラインメントのポジションなどが計算される。

出力はレポジトリで説明されています。確認して下さい。

 

引用

Lapidary: Identifying and reporting amino acid sequences in metagenomes using sequence reads and Diamond
Samuel J Bloomfield, Aldert L Zomer, Alison E Mather
bioRxiv, Posted March 28, 2024.