2020-01-12

ベンチマーク（2019）

benchmark

2020 2/10 追記

2020 3/15 文章修正

2020 9/13 誤字修正

最近はZEN世代のCPUが高いパフォーマンスを出している。しかし、公開されている情報の多くはCPUの基礎的な特性を示すベンチマークだったり、ゲーミングや映像編集など需要が高い分野に限定されており、世間的にはニッチなバイオインフォマティクスのツールのパフォーマンスについての情報は乏しい。そこで、このブログ記事では実際にryzen7 3700xの計算機やインテル系CPUの計算機を使ってHTS関連のツールを動かし、そのランタイムから、ZEN2世代CPUがHTSのデータ処理においても有用なのか考えていく。結果が良好であれば、同じ規格のCore Complex （CCX）の組み合わせから成るEPYCやRyzen Threadripperも似た傾向が期待できる。

今回使用したハードウエア

１、3700x自作機

　CPU: Ryzen3700x 8コア (合計16スレッド)
　memory: DDR4 2667MHz 16B x 2 （合計32 GB）
　GPU: GTX1080
　system: drive: Crucial M2 SSD：1TB x1 (link)メモリキャッシュ機能は無効
　OS: ubuntu18.04LTS

２、MousePro（リンク）

　CPU: xeon E5 2680 v4 2.4 GHz/14コア x 2 (合計56スレッド)
　memory: DDR4 ECC Registered 8GB x 16（合計128 GB）
　GPU: quadroK620
　system: drive: SATA3 SSD：1TB x2 (RAID0)
　OS: ubuntu18.04LTS

３、自作ワークステーション

　CPU: xeon E5 platinum 2.1 GHz/ 28コア x 2 (合計56スレッド)
　memory: DDR4 ECC Registered 64GB x 8 （合計512 GB）
　GPU: quadro K4000
　system: drive: SATA3 SSD：1TB
　OS: ubuntu18.04LTS

４、mac mini 2018上位

　CPU: core i7 8700B 6コア (合計12スレッド)
　memory: DDR4 2667MHz 16GB x 2 （合計32 GB）
　GPU: CPU内蔵グラフィック
　system: drive: M.2 SSD 512 GB
　OS: OSX mojave

５、Apple mac pro 2012 early （リンク）

　CPU: xeon (Westmere EP) 3.46 GHz/6コア x 2 (合計24スレッド)
　memory: DDR3 1,333 MHz 8GB x 12 （合計96 GB）
　GPU: GTX 680
　system: drive: SATA3 SSD：512 GB x 3 (RAID0のストライピング)
　OS: OSX sierra

2020 2/10 追記

６、3990x自作機

　CPU: Ryzen Threadripper 3990X 64コア (合計128スレッド)
　memory: DDR4 3000MHz 16GB x 8 （合計128 GB）
　GPU: GTX 1600
motherboard: TRX40 Taichi
　system: drive: Crucial M2 SSD：512GB x1
　OS: ubuntu18.04LTS
CPUクーラー ROG RYUJIN 360 ()

後から3990xをベンチマークすると、再現性が疑われる結果になってしまいました。何かバージョン管理できていないライブラリがある可能性があります。追記はしないことにします。申し訳ありません。

簡単な解説

１、Ryzen3700xの自作機。マザーはASUSのmicro-ATXボードB450M-K。メモリはDDR4 2666MHz 16GBx2。3700xは定格で3200MHzのメモリまで対応しているが、安価な2667MHzのメモリと組み合わせている（*）。GuppyのGPU版やニューラルネットワークベースのツールを使うため、グラフィックボードはGTX1080 を選択。スモールゲノム解析用のため、メモリは32GBに留めた（ボードは最大128GBメモリまで認識）。CPUクーラーは純正を使用。
２、マウスコンピュータが販売しているxeon E5 v4のワークステーション。CPUの開発コードネームはBroadwell-EP。この世代のxeon E5 2680v4を２つ搭載している。メモリは8GBのDDR4 2400MHz16枚でトータル128GB。システムディスクは1TB SATA3 SSDのストライピング（最近のQLCではなく書込み耐性の高いSSDを使用）。cinebenchR15のスコアは4000前後。電源は900W。GPUを無視すれば、今回の比較中では絶対性能が高く、そして最もバランスが取れた計算機。
３、Intel Xeon P-8136（インテルのOEM向けCPUだが、中国の知人経由で入手）をシングルで積んだワークステーション。CPUの開発コードネームはSkylake-SP。自分でパーツを選定し組み立てた。電源はgoldの1000W。メモリは64GBx8の512GBで、de novo assemblyなどのタスクで多く要求されるメモリは今回のマシンの中で圧倒的に多い。システムディスクはubuntuが512GBのSSD、windows10 proが1TB SSDでdual bootにしている。本機は大容量メモリを積んでいるにしてはシステムの容量が少ない（*2）。ボードは10Gb Ethernetポート搭載。インテルの新しめのサーバに切り替えるとどのくらい処理が早くなるのかの指標になる。（*3）
４、mac mini2018のcore i7 CPUカスタム。インテルの8700Bが積まれていて6コア12スレッドで動作する。メモリは32GB。オプションの10Gb Ethernetポートに変更している。フットプリントは小さいが、背面端子の種類が豊富で、他の機器との接続がしやすい。現在主力機として使用（*4）。
５、２世代前、つまり2009-2012世代のMac proで、本機は2012年モデル。以後、mac pro2012と記載する。デフォルトのCPUからX5690（3.44GHz）に換装し、メモリ容量は96GBまで増設、システムディスクをPCIスロットに繋ぎ3台でストライピングするなどの改良を施している。2009-2012世代のmac proではほぼ最速構成。しかし、10年前の設計であり、メモリ、バス（用語）などの足回りも含めてあらゆる点で現在の世代の計算機より見劣りする。ロートルな計算機と新しい計算機でどのくらい差がつくのかの参考になる。

他にIvy Bridge-EPやHaswell-EPのxeon、xeon platinum8180M dualなどの計算機が利用できたのですが、オーバーホール中だったり、他のジョブのラン中だっため今回のベンチマークには使えませんでした。また、私物でmac pro2009 2.22GHz x2、macbook pro2015、2017等がありましたが、今回のシロイヌナズナゲノムのデータ処理にはスペックが不十分と考えて使いませんでした。

ベンチマーク時のハードウエア設定と環境

部屋の温度20-25度。他のジョブは実行しない。再起動して10分後に測定開始。mac proのファンは最大回転速度に設定。自作機のファンはマザーの自動回転に設定。

使用したデータ

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5803254/のデータを使った。モデル植物シロイヌナズナのシーケンシングデータになる。リード数はショートリードが16,841,951x2、ロングリードが300,071。トータル長はショートリードが84億bp、ロングリードが34億bp。変異解析やde novoアセンブリなどのタスクであれば、十分なリード数が確保できていると言える。

ファイルサイズ

f:id:kazumaxneo:20200112221734p:plain

始めに、mac mini2018とxeon E5 2680v4 dualの２台だけを使って、unixのコマンドやツール実行時の使用スレッド数とランタイムの関係を調べた。pigzコマンドによる圧縮と、３つのツールの実行時間を調べた。

１、pigzによるfastqの圧縮にかかる時間

　fastqの圧縮/解凍はHTS関連でも頻繁に行う作業になる。並列処理に対応したpigzを使って、fastqをgzippingする時のランタイムを調べた。

　下の図が結果。横軸が使用スレッド数、縦軸がランタイム（timeでrealを測定）。使用スレッドが1-4の少ない時は、xeon E5 2680 v4 dual（以後、xeon E5 dual）よりmac mini2018（以後、mac mini）の方が早くジョブが終わっているが、使用コア数が6コア以上に増えると逆転し、xeon E5 dualの方が早くジョブが終わった。xeon E5 2680 v4 dualはスレッド数増加に従いランタイムが短くなり、1スレッドと比較して40スレッドは27.0倍早くジョブが終わった。mac miniは、1スレッドと比べ12スレッド使用時は7.5倍早くジョブが終わった。mac miniの12スレッドとxeon E5dualの40スレッドを比較すると、xeon E5 dualはmac miniの4.2倍早くジョブが終わった。

　xeon E5 2680 v4 dual計算機の利用可能な物理コア数は28で、論理コア数は56になる。興味深いことに、32スレッドから40スレッドにスレッド数を増やしたときでも87%の時間までランタイムが短縮した。pigzはハイパースレッドを上手く使えるらしい。mac miniはあえて16スレッドまで増やした時のタイムも計測した。16スレッド使用時は12スレッド使用時より遅く、12スレッドと比較して106%のランタイムになった。

f:id:kazumaxneo:20200111102840p:plain

ここには載せていないが、unpigz での解凍は、どれだけ並列化してもランタイムはあまり変わらなかった（2コア以上で80-90%前後の時間に短縮）。

２、GNU parallelによる並列化

　GNU parallelやxargsを使うと簡単に"なんちゃって"並列化ができる。そこで、ONTのsquiggle plotデータをbasecallして得た大量のfastqファイルを入力とし、GNU parallelで並列しながらnanofiltのクオリティフィルタリングラン(使用スレッド-t=１)を実行した時のランタイムを計測した。

　下の図が結果。傾向はpigzによく似ていた。並列数が4以下だとmac mini2018の方がxeon E5 dualより早く全ジョブを終え、並列数が6以上に増えると逆転、xeon E5 dualの方が早く全ジョブが終わるようになった。mac miniの12スレッドとxeon E5 dualの40スレッドを比較すると、xeon E5 dualはmac miniの1.6倍早く全ジョブが終わった（pigzの4.2倍と比べると並列化効率は低かった）。GNU parallelによる並列化は、様子をみて、10以下、できれば4程度に留めておくのが無難と思われる。リミットが低いのは"なんちゃって"並列化=、真面目な並列化をしているのが原因と思われる。増やしすぎて他のジョブと I/Oリソースを奪い合えば、全部遅くなる（同じくらいのサイズのファイルを同じタイミングで同時に処理するので、ピーク負荷のタイミングが常にほぼ同時になる）。

f:id:kazumaxneo:20200111102842p:plain

３、SPAdesランの使用スレッド数

pigzやGNU parallelと同様の結果になった。SPAdesのように複数の段階からなる複雑なツールだと、内部で並列化できないプロセスが多くなる。そのためアムダール則（*5）の影響が強く出るのだろうと思われる。

f:id:kazumaxneo:20200111102844p:plain

４、mac mini 2018を使って、minimap2によるマッピング、samtoolsのcoordinate sort、minimap2のマッピングとパイプしたsamtoolsのcoordinate sort、の３つのコマンドランタイムを計測した。データは３つとも同じデータを使用した。n=1

f:id:kazumaxneo:20200112203441p:plain

（追記）samtools sortの並列化による恩恵は少ない（オレンジ）。samtools sortは２ー４スレッド使えば飽和量かもしれない。黒線のminimap2とsamtools のパイプ処理は８スレッド付近まで早くなる傾向が見られるが、minimap2がコア数に応じて早く処理しているのを合わせて考えると（黄緑線）、黒線がコア数に応じて高速化しているのは、minimap2のマッピングだけの高速化だけに由来すると思われる。

ここまでのまとめ

pigzのランは論理コア数上限近くまでランタイムが短縮したが、他のジョブは物理コア数を超えた付近でランタイムは縮まらなくなった。たくさんのCPUコアを利用できる環境やツールであっても、使用スレッド数は物理コア数+1かそれ以下にとどめておくのが無難そうである（物理コア＋１）。

ここからは、１−５の計算機全てを使ってベンチマークを取っていく。以下のスクリプトを１−５の計算機それぞれ５ループ回し、ランタイム（real）とピークメモリをまとめた。

#!/bin/sh 
#benchmark20191230
ref='Arabidopsis_lyrata.v.1.0.dna.toplevel.fa.gz' 
shortf='ERR2173372_1.fastq.gz'
shortr='ERR2173372_2.fastq.gz'
ont='ERR2173373.fastq.gz'
thread='12'

for i in 1 2 3 4 5
 do
 echo fastp${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v fastp -i $shortf -I $shortr -o clean_1.fq.gz -O clean_2.fq.gz -q 30 -w $thread) 2>> run_log

 echo Nanoflint${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v gunzip -c $ont |NanoFilt -q 8 --headcrop 50 -l 500 | gzip > ont_trimmed.fq.gz) 2>> run_log

echo NanoPlot${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v NanoPlot --fastq ont_trimmed.fq.gz --loglength -t $thread) 2>> run_log

 echo cat${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v cat clean_1.fq.gz clean_2.fq.gz > merged.fq.gz) 2>> run_log

 echo lordec${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v lordec-correct -2 merged.fq.gz -k 19 -s 3 -T $thread -i ont_trimmed.fq.gz -o ont-corrected.fasta) 2>> run_log

 echo flye_raw${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v flye --nano-raw ont_trimmed.fq.gz --out-dir flye_raw --genome-size 120M --threads $thread) 2>> run_log

 echo flye_correct${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v flye --nano-corr ont-corrected.fasta --out-dir flye_correct --genome-size 120M --threads $thread) 2>> run_log

 echo minimap2${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v minimap2 -t $thread -ax sr flye_correct/assembly.fasta clean_1.fq.gz clean_2.fq.gz > short.sam) 2>> run_log

 echo samtools_sort${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v samtools sort -@ $thread -O BAM short.sam > short.bam) 2>> run_log

 echo samtools_index${i} >> run_log
 time(/usr/local/Cellar/gnu-time/1.9/bin/gtime -v samtools index -@ $thread short.bam) 2>> run_log

done

１、fastpによる前処理

mac mini2018とryzen7 3700x自作機が一番早くジョブが終わった。mac pro2012だとこれらの計算機の２倍近い時間がかかった。xeon platinumはCPU世代が新しいにしては遅かった（xeon platinumの遅さや大きなばらつきは計測を通して最後まで続いた）。

f:id:kazumaxneo:20200111092638p:plain

12 threads (n=5) (shorter is better)

２、nanofiltによるONTリードのクオリティフィルタリング

fastpと傾向は同じで、mac mini2018とryzen7 3700x自作機が一番早くジョブが終わった。fastpとnanofiltの結果からは、共通してxeon CPUの計算機が遅いという傾向があるように見える。

f:id:kazumaxneo:20200112223520p:plain

12 threads (n=5)

３、nanoplotによるONTリードのクオリティ分析

ryzen7 3700xが最も早くジョブが終わった。mini2018はryzen7より時間がかかっている傾向があるが、ばらつきが大き過ぎて差があるのか不透明だった。mac pro2012はエラーになった。

f:id:kazumaxneo:20200112223636p:plain
1 thread (n=5)

これまでのまとめ

１ー３の結果をまとめると、ryzen7はfastp、nanofilt、nanoplotのような軽い計算では十分高速と言える。次に、より計算集約的なツールを走らせた時の結果を見ていく。

４、lordecによるONTリードのエラーコレクション

lordecによるONTリードのエラーコレクションを、12スレッド指定で実行した。１−３までの傾向とは異なり、最も早く計算が終わったのはxeon E5 v4 dualだった。

f:id:kazumaxneo:20200111092647p:plain

　次に、同じジョブをそれぞれの計算機のCPU論理コア数の上限か、40コアに指定して実行した。mac miniは12スレッドが上限になるため、上の図のデータをそのまま使用している。

　結果を見ると、ryzen7も12スレッドから16スレッドに増やすとランタイムは縮まったが、それ以上にxeon E5 v4 dualとmac pro2012のランタイム短縮が著しく、303min ≒ 5時間でランを終えた（12スレッド時は690min）。mac mini2018は16時間以上かかるため、結果が出るまで１日待たないといけない。一方、５時間で終わるならパラメータを変えて1日に２回は回せる。計算機の性能によって大きな差が出ていると言える。興味深いことに、mac pro2012はryzen7より100分以上早く計算が終えた。

f:id:kazumaxneo:20200112142727p:plain

５、flyeによるONTリードのde novo assembly

　flyeによるONTリードのde novo assemblyを、12スレッド指定で実行した。lordecでエラー修正したリード（下図の上半分）と、エラー修正していないリード（下図の下半分）を使った。エラー修正すると計算量が減るため、ランタイムは大きく短縮される。

　結果を見ると、最も早く計算が終わったのはxeon E5 v4 dualだった。ryzen7の計算機は、raw ONTリードのアセンブリはメモリが足らず強制終了したが（同じメモリ容量のmac miniは正常にランした）、先にエラー修正したリードを使うと、r正常にランは終了した。

f:id:kazumaxneo:20200113145013p:plain

xeon platinumは信じられないほど遅い。

　５のジョブをそれぞれの計算機の論理コア数の上限か、40スレッドに指定して実行した。12スレッド時と同じく、エラー修正したリード（下図の上半分）と、lordecでエラー修正したリードを使っている（下図の下半分）。xeon E5 v4 dualの計算機が最もランタイムを縮めた。これはlordecのランでスレッドを増やした時と同様の傾向になる。"エラー修正したONTリードを使うと、120-Mbゲノムのde novo アセンブリがわずか１時間で終わる"、ということを強調しておく。100ドルゲノムならぬ、植物の1-h whole genome de novo assemblyと言える。

f:id:kazumaxneo:20200113144416p:plain

これまでのまとめ

　ここまでの結果から、ryzen7は軽いジョブでは十分高速だが、エラーコレクションやde novoアセンブリのような計算集約的なジョブではワークステーションクラスの計算機に大きく劣ることがわかった。これは誰もが予想する結果ではあるが、実際にその傾向が出たのは検証した甲斐があったと思う。ryzen7は一般向けの性能と消費電力のバランスが取れたCPUだが、NGSの計算機として十分使えると言ってよい（de novo assemblyなどに使うのでなければ）。

　次に、flyeでde novoアセンブリしたコンティグにショートリードをマッピングし、bamファイルを出力するまでのランタイムを計測する。初期はおかしなデータが出たが、まとめる時に間違ってしまっていた。やり直した結果が以下になる。

６、minimap2によるマッピング

　minimap2を使い、flyeで作成したcontig配列にショートリードをマッピングした。スレッドはmac mini、mac pro、ryzen7がCPUの論理コア数の上限、xeonマシンは40コアに指定している。これまでと同じように、xeon E5 v4 dualの計算機が最もランタイムが短くなった。注目すべきはxeon platinumで、これまでのジョブではスレッドを増やしても遅かったに対し、今回は相応にランタイムが短くなった（*6）。

f:id:kazumaxneo:20200113182122p:plain

７、samtoolsによるsam => bam変換とsort（samtools sort -O BAM -@ <thread>）

　６のステップで得たsamファイルを入力として、samtoolsによるsam=>bam変換とcoordinate sortに要する時間を計測した。スレッド数は、各マシンともステップ６と同じにした。マッピングと似た傾向が見られるが、xeon platinumとxeon E5 dualのタイムは逆転し、samtools sortはxeon platinumの方が早く計算を終えた。

f:id:kazumaxneo:20200113171901p:plain