macでインフォマティクス

macでインフォマティクス

HTS (NGS) 関連のインフォマティクス情報についてまとめています。

機械学習を利用してゲノムアセンブリ品質を総合的に評価する EvalDNA

 

 興味のある生物に対して最も完全で、継続的で、正確なアセンブリを選択するためには、アセンブリの包括的な品質評価が必要である。本著者らは、Evaluation of De Novo Assemblies (EvalDNA)という新しいツールを開発した。このツールは、教師付き機械学習を用いてゲノムアセンブリの品質スコアリングを行い、精度評価のために既存のリファレンスゲノムを必要としない。

 EvalDNAは、アセンブリ配列から品質指標のリストを計算し、教師付き機械学習法から作成されたモデルを適用して、様々な指標を総合的な品質スコアに統合する。EvalDNAの一部として、哺乳類ゲノム配列をスコアリングするための十分にテストされた正確なモデルが提供されている。このランダムフォレスト回帰モデルは、連続性、完全性、正確性に基づいてアセンブルされた配列を評価し、テストデータ内のリファレンスベースの品質スコアの変動の86%を説明することができた。EvalDNAは、GAGE研究のヒト14番染色体のアセンブリに適用され、ゲノムアセンブラのランク付けと、EvalDNAを他の2つの品質評価ツールと比較した。さらに、バイオ医薬品製造コミュニティのためのより良いリファレンスゲノムを確立するために、チャイニーズハムスターゲノムの複数のゲノムアセンブリの評価にもEvalDNAが使用された。また、2018年に完了したQUAST-LG研究からのより新しいヒトアセンブリの評価にもEvalDNAを使用し、GAGE-B研究からのバクテリアアセンブリへの適用を通じて、バクテリアゲノムのスコアリング能力を検証した。

 EvalDNAは、科学者がリファレンスアセンブリを必要とせずに、関心のある生物に対して利用可能な最良のゲノムアセンブリを容易に特定することを可能にする。EvalDNAは、異なる種からのアセンブリ間で直接比較できる品質スコアを生成することで、他の品質評価ツールとは一線を画している。

 

インストール

提供されているdockerイメージを使用してEvalDNA v1.1をテストした。

Github

docker pull bioinfomms/evaldna

 

 

実行方法

レポジトリをクローンしておく。

git clone https://github.com/bioinfoMMS/EvalDNA.git
cd EvalDNA/EvalDNA_v1.1/
mkdir results

configファイルを作成する。ペアエンドfastqのパスを指定するか、ペアエンドfastqを評価するゲノムアセンブリマッピングして作成したbamファイルのパスを指定する。bamを作っていないならbamのパスの行を消すかコメントアウトする。

#run parameters
threads = 16
runReapr = yes
bam_file_provided = no
location_of_bam =
location_of_reapr = /usr/src/app/code/Reapr_1.0.18_for_Evaldna/reapr
location_of_samtools = samtools
paired_end_reads_1 =forward_reads_1.fq
paired_end_reads_2 =reverse_reads_2.fq
sample_map_read_number = 50

 

 

dockerイメージを以下のようにしてランする。

docker run -it -u $(id -u):$(id -g) -v $PWD/results:/usr/src/app/results -v $PWD/code:/usr/src/app/code -v $PWD/data:/usr/src/app/data --cpus="16" bioinfomms/evaldna

立ち上げた時のパスは/usr/src/app/(ホストのEvalDNA/EvalDNA_v1.1/)。

f:id:kazumaxneo:20211204122815p:plain

data/config.txtを編集しておく。

 

code/にEvalDNA_v1.1.pyがあるので、code/に移動してからこれを実行する。評価するゲノム配列(FASTA 形式)を指定する。

python EvalDNA_v1.1.py -i ../data/assembly.fasta -o ../results/outprefix -c
../data/config.txt

 

 

  • コムギゲノムのように1つの配列が530 Mbpを超えているゲノムはindexingができない。そのため、530 Mbpを超えている長い染色体配列はsplitして使用する。

引用

EvalDNA: a machine learning-based tool for the comprehensive evaluation of mammalian genome assembly quality

Madolyn L MacDonald, Kelvin H Lee

BMC Bioinformatics. 2021 Nov 27;22(1):570

 

関連