テキストから3D顔モデル、テクスチャ、アニメーションなどを生成する様々なAIモデルが登場。XRとAIに関連した注目論文をピックアップ～SIGGRAPH 2023（2）

コンピュータグラフィックスとインタラクティブ技術に関するトップカンファレンスであり、今年で50周年を迎えたSIGGRAPH 2023が8月6日（日）から10日（木）まで開催された。アメリカ・ロサンゼルスにおいてハイブリッド開催された同カンファレンスでは、42のセッションにおいて合計253本の技術論文が発表された。本稿では、こうした発表のなかからXRとAIに関連した注目論文を10本、紹介する。

記事の目次

・多彩なジャンルの作品がバランス良く揃った、今年のElectronic Theaterの入選22作品を一挙紹介〜SIGGRAPH 2023（1）

1.詳細なテキスト指定によって3D顔モデルを生成「DreamFace」

DreamFace: Progressive Generation of Animatable 3D Faces Under Text Guidance
https://arxiv.org/pdf/2304.03117.pdf

[SIGGRAPH 2023] DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance

中国・上海科技大学らの研究チームが発表した本論文は、詳細なテキスト指定によって3D顔モデルを生成できるAIモデル「DreamFace」を論じている。

具体的には「モーガン・フリーマン」や「顎のラインが細く、深い目の上に尖った形の眉毛をもつこの男は、印象的な外見でオイリーな赤毛」と英語でテキスト入力すると、その入力内容に合致した特徴を備えた3D顔モデルが生成される。生成された3Dモデルは、笑顔などの簡単なアニメーション表現も実行できる。

現時点におけるDreamFaceの限界として、目の表現にまだ改善の余地がある。テキストからアニメーション表現の指定にも、さらなる研究が必要である。また、なりすましといった悪用の可能性に対する対策も講じなければならない。

2. 複数カメラの動画から未知の視点の3Dシーンを生成可能な「HumanRF」

HumanRF: High-fidelity Neural Radiance Fields for Humans in Motion
https://arxiv.org/pdf/2305.06356.pdf

HumanRF | Full Body Multi-View Video Capture & Playback

動画生成AIを開発・提供するSynthesia社らの研究チームが発表した同論文は、複数のカメラで撮影した人間の動作に関する動画から、未知の視点からも再生可能な3Dシーンを生成するAIモデル「HumanRF」を論じている。この技術のために、160台のカメラを使って撮影した動画データセット「Actors-HQ」が作成された。

今後の研究課題は2点ある。1つ目の課題は複数の3Dシーンを生成した場合、これらのシーンの統一性が実現できないことである。2つ目は、1台のカメラのみによる撮影からHumanRFが出力するのと同等なシーンを生成することである。これらの課題を克服するための先行研究があるので、同モデルはさらに改善できる可能性が大いにある。

3. 簡単なスケッチからフォトリアルな3D顔画像を生成する技術「SketchFaceNeRF」

SketchFaceNeRF: Sketch-based Facial Generation and Editing in Neural Radiance Fields
https://dl.acm.org/doi/pdf/10.1145/3592100

SketchFaceNeRF: Sketch-based Facial Generation and Editing in Neural Radiance Fields

中国科学院計算技術研究所らの研究チームが発表した本論文は、簡単なスケッチからフォトリアルな3D顔画像を生成する技術「SketchFaceNeRF」を論じている。スケッチと任意の顔画像を組み合わせた3D顔画像も生成できる。例えば、男性の顔のスケッチと髭のある男性顔画像を入力すると、これらの入力がもつ特徴を備えた3D顔画像を生成できる。

SketchFaceNeRFには、2つの制限事項がある。1つ目の制限は、あまりに簡略化された顔のスケッチを入力とすると、フォトリアルな顔画像が生成されるものの、スケッチの特徴が反映されない。2つ目は、スケッチのなかに帽子のような装飾的なオブジェクトが含まれていた場合、そのオブジェクトは生成画像に反映されない。

SketchFaceNeRFをはじめとするフォトリアルな顔画像生成技術は偽画像の生成に悪用される懸念があるが、同時に偽画像検出技術のための学習データセットの制作にも活用できる。

4. テキスト入力から3Dモデルのテクスチャを高速で生成する「TEXTure」

TEXTure: Text-guided Texturing of 3D Shapes
https://arxiv.org/pdf/2302.01721.pdf

TEXTure: Text-Guided Texturing of 3D Shapes

イスラエル・テルアビブ大学の研究チームが発表した本論文は、テキスト入力によって3Dモデルのテクスチャを高速で生成する技術「TEXTure」を論じている。この技術によって、例えばテクスチャなしのウサギの3Dオブジェクトに対して「木彫りのウサギ」と入力すると、木彫りのテクスチャを設定できる。また任意の画像を入力すると、その画像をテクスチャに設定できる。

TEXTureは時として、3Dオブジェクト全体に対して首尾一貫したテクスチャを設定することに失敗してしまう。この問題は同技術がテクスチャを設定するにあたって、オブジェクトの周辺に仮想された8つの固定視点を用いていることに起因する。この問題については、視点を動的に設定できるようにすると解決する可能性がある。

5. ユーザのドラッグ操作により生成画像を制御できる「DragGAN」

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
https://vcai.mpi-inf.mpg.de/projects/DragGAN/data/paper.pdf

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold. SIGGRAPH 2023

マックス・プランク情報学研究所らの研究チームが発表した本論文は、ユーザのドラッグにより制御可能な技術「DragGAN」を論じている。画像生成技術のひとつであるGANは、生成画像の制御が難しいという欠点があった。対してDragGANは、ユーザが生成画像の任意の場所をドラッグすることで画像に写っているオブジェクトの大きさや向きを変えられる。

DragGANの開発にあたっては、既存のGANに使われた学習データを流用している。それゆえ、既存の学習データにないような人間のポーズを生成しようとすると、不自然になることがある。今後の課題にはDragGANは2次元的な制御のみに対応しているので、3次元的な制御にも対応することが挙げられる。

6. 入力した音楽様式に合わせたダンスモーションを生成するAIモデル

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models
https://arxiv.org/pdf/2211.09707.pdf

[SIGGRAPH 2023] Listen, denoise, action! Audio-driven motion synthesis with diffusion models

スウェーデン王立工科大学の研究チームが発表した本論文は、ジャズなどの特定の様式の音楽を入力すると、その音楽に合致したダンスを行う全身モーションモデルを生成するAIモデルを論じている。このモデルの開発にあたっては、音楽とダンスを対応付ける訓練をAIモデルに行なった。

以上のAIモデルは訓練時に数秒間のダンスを最大単位として学習していたため、時間的に長い構造をもつダンスを生成できない。この制限を克服するためには、ダンスの時間構造を学習できるようにする必要がある。

今後の課題としては任意の音楽に対してダンスだけではなく、歌声などの音声やジェスチャーを生成できるAIモデルのマルチモーダル化が挙げられる。

7. テキストで指定したジェスチャーのアニメーションを生成するAIモデル「GestureDiffuCLIP」

GestureDiffuCLIP: Gesture Diffusion Model With CLIP Latents
https://arxiv.org/pdf/2303.14613.pdf

[SIGGRAPH 2023] GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents

中国・北京大学の研究チームが発表した本論文は、テキストによって指定したジェスチャーを実行する人間のアニメーションを生成するAIモデル「GestureDiffuCLIP」を論じている。例えば「両手を挙げて文句を言う人」と入力すると、そのようなジェスチャーをする人間のアニメーションが生成できる。ジャスチャーは、頭部・胴体・手足と身体部位ごとに指定可能である。

GestureDiffuCLIPの開発に使われたデータセットには多くのヨガのポーズが含まれていないため、ヨガのポーズをジェスチャーとして指定しても正確には再現されない。また、稲妻や雲のような明瞭な形のないものをジェスチャーとして指定しても、望ましい出力が得られない。

GestureDiffuCLIPの応用として、大規模言語モデルが生成するテキストを再生する場合に、特定のジェスチャースタイルを指定して人間のアニメーションに語らせることがある。このように同モデルを活用すれば、生成されたテキストの表現力が向上する。

8. ラフスケッチから高品質なアニメ顔画像を生成するAIツール「AniFaceDrawing」

AniFaceDrawing: Anime Portrait Exploration during Your Sketching
https://arxiv.org/pdf/2306.07476.pdf

AniFaceDrawing: Anime Portrait Exploration during Your Sketching (SIGGRAPH 2023)

北陸先端科学技術大学院大学らの研究チームが発表した本論文は、ラフスケッチから高品質なアニメ顔画像を生成するAIツール「AniFaceDrawing」を論じている。同様のツールは存在するものも、低品質であった。今回の研究ではStyleGANをベースにして2段階の訓練を実施することで、高品質なアニメ顔画像の生成に成功した。

AniFaceDrawingの実用性を検証するために15名の評価者にこのツールを試用してもらった後、アンケート調査を実施した。その結果、スケッチと生成画像の一致を問う複数の設問において5点満点中3.04から4.07であった。こうした評価からテスターはおおむね満足していたと言える。

今後の課題として、対応する画風を浮世絵や西洋絵画などに拡張することが挙げられる。

9. モーションキャプチャと物理的移動を統合するセンシング技術「EgoLotate」

EgoLocate: Real-time Motion Capture, Localization, and Mapping With Sparse Body-mounted Sensors
https://arxiv.org/pdf/2305.01599.pdf

EgoLocate - SIGGRAPH 2023

中国・清華大学らの研究チームが発表した本論文は、モーションキャプチャと物理的移動を仮想空間に対応づけるのに使われるSLAM（「Simultaneous Localization and Mapping」の略称）を統合したセンシング技術「EgoLocate」を論じている。それぞれを単独で使うよりも高精度のトラッキングを実現した。トラッキングするユーザーには、頭部にスマホのカメラと各身体部位に5個の慣性計測装置を装着するだけなので、負担が少ない。

EgoLocateによるトラッキングには、ユーザの身体データとして平均的な身体サイズを用いている。トラッキングの精度を上げるには、ユーザの身体を計測してトラッキングデータを微調整すると良い。

10. VRヘッドセット装着時の頸部への負担を研究

Toward Optimized VR/AR Ergonomics: Modeling and Predicting User Neck Muscle Contraction
https://www.immersivecomputinglab.org/wp-content/uploads/2023/05/xr-ergonomics-neck-comfort.pdf

Reducing Neck Discomfort for VR/AR Ergonomics

アメリカ・ニューヨーク大学の研究チームが発表した本論文は、VRヘッドセット装着時の頸部への負担を研究した成果を論じている。

同研究チームは、VRヘッドセットの位置および動作とユーザーの頸部筋肉の収縮の関係を解明した結果、VRヘッドセット装着時の頸部筋肉収縮（負担が大きいほど収縮が大きい）を算出する数式を導出した。この数式は、XRデバイスのインターフェイス設計時に役立てられる。

なお、今回の研究ではヨー角（z軸回転）とピッチ角（y軸回転）の動きと頸部筋肉収縮の関係を計測し、ロール角（x軸回転）の動きを除外している。ロール角と頸部筋肉収縮の関係は、頸部以外の身体部位に測定箇所を代替すれば、解明できる可能性がある。

SIGGRAPH2023では、2022年以降に起きた画像生成AIの台頭と普及を受けて、テキスト入力によって複雑な画像生成／編集を可能とするAIグラフィック技術の発表が増えた。また、動画や3Dモデルを生成・編集するAIグラフィック技術が今後大きな注目を集めると考えられる。

こうしたAIによる動画／3Dモデル生成はクリエイターをさらにサポートとする一方で、偽の動画や3Dモデルの生成という新たな問題も提起する。それゆえ、クリエイターがこうした新しいAIグラフィック技術を導入する際には、その技術の倫理的・法的側面にも注意を向けるべきであろう。

TEXT＿吉本幸記 / Kouki Yoshimoto
EDIT＿小村仁美 / Hitomi Komura