シミュレーション以外でもAMD Ryzen™ Threadripper™ PRO搭載のワークステーションがその威力を発揮!? トランジスタ・スタジオの秋元氏がその可能性を見出す
最大64コアに対応するAMDのCPU「AMD Ryzen™ Threadripper™ PRO 5000 WX シリーズ・プロセッサー」を採用したデル・テクノロジーズの「Dell Precision 7865 Towerワークステーション」が、2022年9月に発売された。前回の「AMD Ryzen™ Threadripper™ PRO搭載のワークステーションが登場、トランジスタ・スタジオ 秋元純一氏のファーストインプレッションは?」(https://cgworld.jp/special-feature/202211-akimoto-threadripper-pro.html)では、デル・テクノロジーズやAMDの担当者を交えつつ、トランジスタ・スタジオの秋元純一氏にその第一印象を語ってもらった。
今回は、AMD Ryzen Threadripper PRO 5000 WX シリーズ・プロセッサーとDell Precision 7865 Towerワークステーションが持つ真の実力を探るべく、秋元氏がさまざまな検証を実施。メニーコアCPUのパフォーマンスをどこまで引き出せるかをチェックするとともに、将来的な可能性も探ってもらった。
検証では、シミュレーションにおいて「64コアCPUよりも32コアCPUの方が優れているケースが多い」という結果が出た。またメニーコアCPUの恩恵は、シミュレーションだけでなくルックデヴの分野も爆速化することが確認でき、今後のワークフロー改善の可能性も見えてきた。詳しくは下記のインタビューで確認してほしい。
4種類の異なるシミュレーションと2パターンのレンダリングで検証
CGWORLD(以下、CGW):まずは、検証の概要を教えてください。
秋元純一氏(以下、秋元):今回の検証ではHoudiniを使用し、4種類のシミュレーションを実行しました。検証機には、CPU構成の異なるDell Precision 7865 Towerワークステーションの2機種(以下、64コア AMD CPU搭載モデルをA構成、32コアAMD CPU搭載モデルをB構成とする)に、自分が現在使用しているインテルCPU搭載デスクトップPC(以下、現行機。検証結果のグラフでは「秋元氏PC」と記載)を加えた合計3台を用意。それぞれのシミュレーションで、処理完了までの時間を計測しました。
これに加えて、HoudiniとMayaでのレンダリング時間も計測。レンダラーは、Houdiniでは標準搭載の「KARMA」を、Mayaでは「Arnold」を使用しました。ちなみに、それぞれのバージョンはHoudiniが「19.5.435」、Mayaは「Maya 2023」となります。
CGW:HoudiniのレンダラーにKARMAを選んだ理由は何でしょうか?
秋元:KARMAは、CPUだけでなくXPU(CPU+GPU)でのレンダリングにも対応しているため、GPUも含めた「2パターンで比較もできる」と考えて選びました。また、以前にRedshiftとKARMAの性能を別の検証で比較したことがあるのですが、その結果がかなり僅差だったので「あえてRedshiftで検証する必要はない」と考え、KARMAのみで検証しました。
検証によってはメニーコアを活かしきれないケースも
CGW:それでは、各検証の詳細と結果を説明してください。
秋元:1つ目は「FLIP」という液体の流体シミュレーションになります。FLIPは流体粒子法に近く、Houdiniでは割と主流で使われている液体計算です。解像度は750万ポイント/300フレーム。検証なのでハイレベルとは言えませんが、概ねプロダクションレベルではあります。
検証結果は、A構成が「3時間47分1秒」、B構成が「3時間39分15秒」、現行機が「6時間21分51秒」となりました。B構成がもっとも速く、現行機の約半分の時間で終了したほか、A構成よりもCPUのコア数が少ないB構成の方が速かったというのはやや驚きでした。
CGW:A構成の方が遅かった理由は何だと思いますか。
秋元:1つは「メニーコアへの適応」が関係している思います。というのも、CPUの使用率を確認したところ、B構成はほぼ100%だったのに対して、A構成は100%になるタイミングがあまりなく、70%近くにまで落ち込むこともありした。そのため、ソフトウェア側がCPUのコア数などに対応しきれていないと推測します。
もう1つ考えられるのは「クロック数の差」です。例えば、CPUのベースクロック数を比べてみるとB構成の「AMD Ryzen Threadripper PRO 5975WX プロセッサー」は「3.60GHz」で、A構成の「AMD Ryzen Threadripper PRO 5995WX プロセッサー」の「2.70GHz」よりもかなり高くなっています。ソフトウェア側がメニーコアに対応しきれていないのであれば、クロック数に依存する部分がまだ多いのかなと分析します。
CGW:次に、2つ目の検証をお願いします。
秋元:2つ目も流体シミュレーションで、煙や炎のエフェクトに利用される「Pyro」です。解像度は、三次元のXYZで「580×640×500ボクセル」となりますが、このサイズはシミュレーション中に多少変動しています。また、Uniformはボクセルではなくスパースボリューム(Sparse Volume)を使用。Houdiniでは最近、ボクセルよりも高速な「VDB」が主流となっているので、それを使いました。
検証結果は、A構成が「27分31秒」、B構成が「22分1秒」、現行機が「48分40秒」。この検証でもB構成がトップですが、理由はFLIPと同様だと考えます。
CGW:コア数比で考えると、12コアCPU搭載の秋元氏のPCがかなり頑張っていると感じます。その理由は何でしょうか?
秋元:確かに、CPUの世代の古さやコア数を考慮すれば、もう少し差がついても良いでしょうね。理由として考えらえるのは、先ほど触れたクロック数に加えて、GPUの性能も影響していると思います。というのも、Pyroでは部分的にOpenCLを使っているため、GPUの性能が少なからず影響してくるからです。現行機のGPU「GeForce RTX 2070 Super」は2世代前の製品ですが、さすがに3枚も搭載しているとA構成やB構成のGPU「NVIDIA RTX A6000」よりも優勢なようで、それが結果に反映されたと考えます。
CGW:3つ目の検証はどのような内容でしょうか。
秋元:3つ目は「RBD(Rigid Body Dynamics)」。大量のオブジェクト(今回はカニ)が落下するシミュレーションを処理するもので、今回のポリゴン数は約45億(4,491,739,575ポリゴン)となります。ただし、これをそのままシミュレーションしても当然処理しきれないので、処理を可能にするセッティングとして「カニ1匹を1つの点として処理する」という点がRBDの肝です。具体的には、表示上は何百万ポリゴンでも疑似的に1つの点として処理する「Pack」と呼ばれる仕組みを組み合わせることで、メモリ消費などを大きく抑えて計算しています。
こちらの結果は、A構成が「17分4秒」、B構成が「23分5秒」、現行機が「1時間8分39秒」でした。64コアCPUのA構成が最速だったので、これについてはCPUのコア数をしっかり活用できた検証だったと感じます。
CGW:ここでコア数に準じた結果が出たのはなぜでしょうか?
秋元:憶測の域を出ませんが、シミュレーションでは「Bullet」と呼ばれる物理演算エンジンが使用されており、そのBulletが「どこまで並列処理にオプティマイズ(最適化)されているか」がポイントでしょう。この検証ではそれが顕著に出たのかなと。現行機と比べるとA構成は1/4になっているので、これはかなり爆速と言えるでしょうし、実際に見ていても処理スピードがかなり速いと感じました。
CGW:では、4つ目の検証をお願いします。
秋元:4つ目は「PBD(Position Based Dynamics)」で、今回の検証ではソフトシェルクラブのような柔らかいカニが大量に落ちてくる際の衝突による変形を、Houdiniの機能「Vellum」でシミュレーションしました。Vellumはやや特殊なシミュレーションで、点と点の距離を計算し、その距離を「どの程度保つか」でソフトボディを疑似的に計算します。また、全体的な構造は点と点をつないで構成される「三角錐(tetrahedral)の集合体」となります。
そして、今回は「75万points/270万tetrahedral」というパラメータで検証。結果はA構成が「41分46秒」、B構成が「33分14秒」、現行機が「49分21秒」となりました。
CGW:結果を見るとどれもあまり大きな差にはなっていませんが、その理由は何だと思いますか?
秋元:Vellumは完全にOpenCLベースでGPUへの依存度がかなり高いことから、それが原因で差が出にくかったと推測します。ただ、CPUに依存する部分も当然あるため、その影響から32コアでクロック数も高いB構成がもっとも速かったと考えます。
レンダリングではCPUが実力を発揮し、リアルタイムレンダリングでも高評価
CGW:では次に、レンダリング検証の詳細を教えてください。
秋元:レンダリングでは、先ほどのVellumでシミュレーションしたデータを使用し、SSS(Subsurface Scattering)のシェーディングを施してレンダリングを実行しました。最初にも少し触れましたが、レンダラーにはKARMAを使用。CPUベースの「KARMA CPU」とCPU+GPU の「KARMA XPU」の2パターンで処理時間を計測しました。
結果は、KARMA CPUではA構成が「3分30秒」、B構成が「4分55秒」、現行機が「14分21秒」となりました。現行機と比較して、64コアCPUのA構成は約1/4になっているので、クロック数の差を踏まえてもかなりメニーコアを上手く使っていると感じます。その意味では、KARMAは新しいレンダラーということもあり、CPUのマルチスレッドにかなり最適化されているといって良いでしょう。また32コアCPUのB構成も、クロック数の高さのおかげでなかなか健闘したと感じました。
CGW:KARMA XPUの方はどうでしょうか。
秋元:KARMA XPUの結果は、A構成が「2分39秒」、B構成が「2分42秒」、現行機が「2分5秒」でした。これは現行機がトップだったので、完全にGPUの性能が顕著に表れた印象です。ただ、KARMA XPUはまだβ版なので、今後の改善次第で「CPUの補助がもっと効いてくれば、結果は変わってくる」と思っています。
CGW:最後に、Mayaの検証については?
秋元:Mayaのレンダリングでは、HoudiniからMayaに移植した同じシーンのデータを使用。ArnoldでCPUレンダリングしましたが、結果はA構成が「3分19秒」、B構成が「4分53秒」、現行機が「14分37秒」と、KARMA CPUでの検証とほぼ同じになりました。CPUの性能をしっかり発揮ということであり、概ね想定通りの結果と言えるでしょう。
秋元:なお、使い勝手で個人的に驚いたのはリアルタイムレンダリングによる「Houdini Solarisのビューポート(Hydra Render Delegate)」でした。というのも、普段の作業では現行機のXPUでリアルタイムレンダリングを行っているのですが、B構成で同じことをしてみると、CPUのみでも数秒程度でビューポートを表示してくれました。現行機のXPUよりはワンクッション遅いですが、感覚的にはひと昔前のGPUを使ったときに匹敵する速度なので、それをCPUだけで実現できるというのはちょっとした発見でした。現行機のCPUのみでは「遅いな」と感じるくらいなので、その差は歴然でしょう。
ルックデベロップメントの現場にも圧倒的なCPU性能が必要となるはず
CGW:検証を終えて、どのように感じましたか。
秋元:すべての検証結果を踏まえると、64コアの「AMD Ryzen Threadripper PRO 5995WX プロセッサー」ではその性能を最大限に活かせる状況がまだまだ少ないと言えるでしょう。そのため、現時点では32コアの「AMD Ryzen Threadripper PRO 5975WX プロセッサー」を搭載したDell Precision 7865 Towerワークステーションの方が、コストパフォーマンスなどを考慮しても選択肢としてはありかなという印象でした。
一方で、リアルタイムレンダリングによる「Houdini Solarisのビューポート」の使い勝手については、改めて注目したいポイントでしょう。もちろん、メニーコアへの対応がまだ完全ではないとはいえ、今回の検証結果を見ればAMD Ryzen Threadripper PRO 5000 WX シリーズ・プロセッサーを採用したDell Precision 7865 Towerワークステーションが「シミュレーション向きである」というのは間違いないでしょう。ただ、Houdini Solarisのビューポートで感じた使い勝手を考慮すると、「ルックデベロップメントなどの現場の方が、意外と重宝するのではないか」とも思えました。
CGW:具体的に、どういうことでしょうか?
秋元:例えば、3Dシーンを汎用的に定義するファイルフォーマットに、Pixarが中心となって開発した「USD(Universal Scene Description)」があるのですが、今後はこのUSDがパイプラインの主軸形式になると考えられます。そのため、今後はMayaやHoudiniでもUSDを介してシーンを作成することが想定されるわけです。ただ、ルックデベロップメントの現場ではCPU依存のレンダリングがまだまだあると思われるため、今回のようにCPUのみのリアルタイムレンダリングでライティングの結果などをすぐにチェックできるようになると、作業効率には「大きな違いが出るはず」と思うわけです。
CGW:それはつまり、AMD Ryzen Threadripper PRO 5000 WX シリーズ・プロセッサー搭載のDell Precision 7865 Towerワークステーションは基本的に「ポスプロに近い人たち向き」と思われがちだが、実際には「プリプロというか、ルックを決める段階の人たちにも有用性がある」ということでしょうか。
秋元:USDの普及次第とも言えますが、個人的にそうなって欲しいと思っています。なぜなら、前段階の作業が早く進めば、おのずと後段階にも好影響を与えてくれるからです。
また、ルックデベロップメントの段階で「少ない時間でも多くのテイクを重ねられる」というのも非常に重要です。例えば、シミュレーションなどはローカルPCで処理せずにサーバーへ投げることもできるので、必ずしも圧倒的なCPU性能が必要とは限りません。しかし、ライティングなどの作業では、確認の際にレンダリングでいちいち10分や20分も待ってはいられないので、待たずにリアルタイムレンダリングでチェックできるローカルPCのCPU性能はかなり魅力的でしょう。それだけに、そういった現場にも「AMD Ryzen Threadripper PRO 5000 WX シリーズ・プロセッサーやDell Precision 7865 Towerワークステーションは貢献するだろう」と感じました。
検証機「Dell Precision 7865 Towerワークステーション」の概要とポイント
今回の検証は、構成の異なるデル・テクノロジーズの「Dell Precision 7865 Towerワークステーション」を2機種に、秋元氏が日頃の作業で利用しているインテルCPU搭載のPCを加えた3台で実施した。
1台目のDell Precision 7865 Towerワークステーション(A構成)は、64コア128スレッドという驚異の性能を有するAMDのワークステーション向けハイエンドCPU「AMD Ryzen Threadripper PRO 5995WX プロセッサー」を採用。GPUにはプロフェッショナル向けのハイエンドモデル「NVIDIA RTX A6000」を搭載するほか、メモリも256GBと圧巻の構成に仕上がっている。
2台目のDell Precision 7865 Towerワークステーション(B構成)は、32コア64スレッドのAMD製ワークステーション向けCPU「AMD Ryzen Threadripper PRO 5975WX プロセッサー」を採用。A構成の5995WXと比較するとコア数は半分だが、コンシューマ向けのCPUと比べればハイエンドを超える高スペックであることには間違いない。一方で、ベースクロック数が5995WXの2.70GHzよりも高い「3.60GHz」であるのがポイントだ。なお、GPUやメモリなどはA構成と共通となる。
これに対して秋元氏のPCは、CPUにインテルのクリエイター向けCPU「Core i9-10920X プロセッサー」を搭載。約2年前に発売されたハイクラスモデルとなるが、スペック的には12コア/24スレッドでベースクロックも3.5GHzとなかなか優秀だ。さらに、GPUは「GeForce RTX 2070 Super」を何と3枚も搭載しており、2世代前のモデルながらも非常に優れたパフォーマンスを発揮。メモリは128GBとなるなど、全体的に高いスペックを備えつつ、GPUレンダリングでの活用を踏まえた構成となっている。
Dell Precision 7865 Towerワークステーション(A構成)
- CPU
AMD Ryzen Threadripper PRO 5995WX プロセッサー(64コア / 128スレッド / 2.70GHz /最大ブースト・クロック4.5GHz / L3キャッシュ256MB / TDP 280W)
- GPU
NVIDIA RTX A6000 48GB GDDR6
- メモリ
256GB(32GB×8)
- ストレージ
NVMe接続512GB SSD+1TB HDD
- 電源
1350W
- OS
Windows 10 Pro
Dell Precision 7865 Towerワークステーション(B構成)
- CPU
AMD Ryzen Threadripper PRO 5975WX プロセッサー(32コア / 64スレッド / 3.60GHz /最大ブースト・クロック4.5GHz / L3キャッシュ128MB / TDP 280W)
- GPU
NVIDIA RTX A6000 48GB GDDR6
- メモリ
256GB(64GB×4)
- ストレージ
NVMe接続1TB SSD
- 電源
1350W
- OS
Windows 10 Pro
秋元氏のPC
- CPU
インテル Core i9-10920X プロセッサー(12コア / 24スレッド / 3.50GHz / TB時最大4.80GHz / 19.25MBキャッシュ)
- GPU
GeForce RTX 2070 Super×3枚
- メモリ
128GB(16GB×8)
- OS
Windows 10 Pro
問い合わせ
デル・テクノロジーズ
TEL(個人・法人):0120-912-039(平日:9時~18時30分)
https://www.dell.com/ja-jp
日本AMD
TEL(法人):03-6833-1041(平日:9~12時/13時~18時、土日祝:9~20時)
TEL(個人):03-6833-1010(9時~20時)
https://www.amd.com/ja
TEXT_近藤寿成(スプール)
PHOTO_大沼洋平
INTERVIEW_池田大樹(CGWORLD)