3Dシーンへの3Dペインティング、動画内へのオブジェクト挿入、弾性素材のVR編集などが登場。XRとAIに関連した注目論文をピックアップ〜SIGGRAPH 2025（1）

コンピュータグラフィックスとインタラクティブ技術に関するトップカンファレンスであるSIGGRAPH2025が8月10日（日）から14日（木）まで開催された。カナダ・バンクーバーにおいてハイブリッド開催された同カンファレンスでは、54のセッションにおいて合計347本の技術論文が発表された。本稿では、そうした発表のなかからXRとAIに関連した注目論文を10本、紹介する。

記事の目次

1. 3Dオブジェクトの一部をテキスト指示で編集できる「CMD」

CMD: Controllable Multiview Diffusion for 3D Editing and Progressive Generation
https://penghtyx.github.io/CMD/

中国・香港科技大学らの研究チームは、入力した3Dオブジェクトの一部をテキスト指示によって編集できる「CMD（Controllable Multiview Diffusion：制御可能なマルチビュー拡散）」を提案している。同モデルを使うと、例えば首に赤いスカーフを巻いたペンギンの3Dオブジェクトに対して、"スカーフを紫にして"とテキストプロンプトを入力すると、その指示通り、スカーフ部分だけが編集された3Dオブジェクトが出力される（引用画像の上部参照）。

CMDは、プロンプトによって指示された3Dオブジェクトの領域に対して、3次元的な画像生成を実行している。この画像生成には、市販の画像生成アプリOpenArtが活用されているので、このアプリと同様の画像品質限界がある。

2. 3Dシーンに3Dオブジェクトをペイントする「3D Gaussian Splat Brushes」

Painting with 3D Gaussian Splat Brushes
https://splatpainting.github.io/

カナダ・トロント大学とNVIDIAの共同研究チームは、3Dシーンを直接ペイントできるツール「3D Gaussian Splat Brushes」を提案している。このツールを使うと、例えば電車のレールが敷かれた3Dシーンから、レールの部分を抽出して、レールが敷かれていない場所にレールを敷く、というシーン操作が可能となる。

研究チームは、有機的な樹木や森林のペインティングから、一貫性のある人工構造物の構築、動物や衣服のテクスチャにいたるまで、様々な描画を試みた。その結果、反復的な描画処理を効率化することを実証した。

なお、このペインティングツールには、描画した3Dシーンの照明が描画先のシーンに適合しないという制限がある。この制限により、3Dシーンの描画後、照明設定を更新する必要がある。

3. シーン画像とテキストによる加算的生成が可能な「pOps」

pOps: Photo-Inspired Diffusion Operators
https://popspaper.github.io/pOps/

イスラエル・テルアビブ大学らの研究チームは、様々な画像生成処理を組み合わせられる「pOps（Photo-Inspired Diffusion Operators：写真にインスパイアされて拡散処理する演算子）」を提案している。同モデルを使うと、例えばウサギのぬいぐるみを撮影した画像に対して、「溶けた」というテキスト指示を入力すると、溶けたウサギのぬいぐるみの画像が出力される。

pOpsを用いると、布地などのテクスチャを表示した画像と、ワンピースを着用した女性の画像を入力すると、ワンピースのテクスチャを布地のそれに合成できる。この合成では、布地の画像がテクスチャとして指定されている。

それぞれに異なる被写体が写った2枚の画像を入力して、2つの被写体が写った1枚の画像を生成する「統合生成」も可能である。しかし、この生成ではまれに被写体の描画に失敗することがある。

4.プロフェッショナルなレタッチを教えてくれる「MonetGPT」

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
https://monetgpt.github.io/

イギリス・ロンドン大学とAdobeの共同研究チームは、入力画像に対してどのようなレタッチを実施すればプロフェッショナルな画像が制作できるのか、その処理手順を教えてくれる「MonetGPT」を提案している。

MonetGPTは、レタッチ過程を一種のパズル問題として処理している。つまり、レタッチ前の画像にどのようなレタッチを実施すれば、プロフェッショナルな画像が完成するのか、その手順を穴埋め問題を回答するように訓練した。

MonetGPTの有効性に関して、研究チームは15人のレタッチ初心者と10人のレタッチ専門家に評価してもらった。その結果、評価者全てから同モデルのレタッチ指示が適切だと判断された。

MonetGPTの訓練では、8,000枚のプロフェッショナルな画像が用いられた。今後は、さらに学習データを増やすことで、様々な仕上がりのレタッチを指示できるようにする予定だ。

5. 生き生きとした顔の表情を生成する「MSMD」

Model See Model Do: Speech-Driven Facial Animation with Style Control
https://ubisoft-laforge.github.io/character/msmd/

Ubisoftとカナダ・トロント大学の共同研究チームは、実在の役者が演じている動画を入力すると活き活きとした演技を再現した3Dアバターを出力する「MSMD（Model See Model Do：見た通りに実行するモデル）」を提案している。このモデルは、従来では再現が難しかった微妙な表情と口調の忠実な同期に成功している。

MSMDが表情の忠実な再現に成功したのは、入力動画から表情の特徴を正確に抽出しているからである。具体的には、入力動画から表情のスタイルを決定づけている複数のコマを抽出して、このコマを基準として唇と表情を再現している。

今後の課題として、異なる役者から表情スタイルをそれぞれ抽出して、それらを合成して新しい表情を表現する”表情ブレンディング”の実現を目指している。

6. 人物画像と動作動画から3D動画を生成する「ISA4D」

ISA4D: Interspatial Attention for Efficient 4D Human Video Generation
https://dsaurus.github.io/isa4d/

中国・清華大学らの研究チームは、人物を撮影した画像と動作を撮影した動画を入力すると、画像の人物が動作動画で示された動作を実行する「ISA4D」を提案している。従来のいわゆる「ダンス生成動画」とISA4Dのちがいは、前者は2D的なモーションを生成するのに対して、後者は3Dキャラクターのモーションを生成するところにある。

ISA4Dを活用すると、例えばマイケル・ジャクソンの『Beat It』のMVを参照して、任意の人物がマイケル・ジャクソンのように踊る動画を生成できる。動作は複数の人物にも適用できるので、複数の人物がBeat Itを踊る動画も生成できる。また、カメラ制御も設定可能だ。

制限事項として、複数の人物を撮影した画像を入力する場合、人物どうしが重なり合っていると、生成に失敗することがある。

7. 動画内でオブジェクトの挿入：置換が可能な「VideoAnydoor」

VideoAnydoor : High-fidelity Video Object Insertion with Precise Motion Control
https://videoanydoor.github.io/

中国・香港大学らの研究チームは、任意の動画に対して、入力画像に写った被写体を挿入・置換できる「VideoAnydoor」を提案している。このモデルを使うと、例えば、草原を写した動画に対して、入力画像に写っている蝶が飛んでいるモーションを挿入できる。挿入する被写体のモーションは、被写体の一部を指示するポインターと、そのポインターの軌跡を設定することで実現する。

VideoAnydoorの有力な応用事例として、バーチャル試着が挙げられる。試着する人物の動画に対して、任意の衣服画像を挿入することで、様々な試着動画を生成できる。類似事例として、挿入先動画の被写体に任意のロゴを挿入することもできる。

VideoAnydoorには、複雑なロゴを挿入できないという制限事項がある。この制限は、学習データを増やすことで改善できると予想されている。

8. スケッチから3Dキャラクターのモーションを生成する「Sketch2Anim」

Sketch2Anim: Towards Transferring Sketch Storyboards into 3D Animation
https://zhongleilz.github.io/Sketch2Anim/

イギリス・エディンバラ大学らの研究チームは、動作を説明した簡単なスケッチから3Dキャラクターのモーションを生成できる「Sketch2Anim」を提案している。このモデルを使えば、3Dキャラクターのアクションを短時間で制作できる。

入力するスケッチが、棒人間とその動作軌跡を表す線のみで構成されていても、モーションを生成できる。さらに実際のアニメーション制作に使われるようなキャラクターを描き込んだストーリーボードに動作軌跡を記入したものを入力情報として活用できる。

Sketch2Animは、ふたつの方向に改善される予定である。ひとつめは、動きの速さや強さを表すスピードラインへの対応であり、ふたつめはアニメーションのなかに小道具等を設置して、モーションに対する環境の制約を適用することである。

9. 握る感覚を再現するVRシステム「ForceGrip」

ForceGrip: Reference-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation
https://han-dongheun.github.io/ForceGrip/

韓国・慶熙大学校らの研究チームは、VR空間内でリアルな握力体験を再現するVRシステム「ForceGrip」を提案している。このシステムを実現するために、任意のオブジェクトを握るときのユーザーの握力と手の動きと、こうした入力に対応する握ったオブジェクトの反応を学習したディープラーニングモデルを開発した。

以上のディープラーニングモデルの学習では、オブジェクトの把握に関する様々な学習シナリオを作成して訓練するカリキュラム学習が採用された。

ForceGripの評価のために、11名のVR経験者と9名のVR初心者から構成された評価者が、バーチャルなブロックをつまんだり、バーチャルな缶をつぶしたりするテストを実施した。その結果、いずれのテストでもForceGripが先行VR把握システムよりリアルな把握体験を実現している、と評価された。

10. 素材をこねる感覚を再現するVRシステム「VR-Doh」

VR-Doh: Hands-on 3D Modeling in Virtual Reality
https://simulation-intelligence.github.io/VR-Doh/

アメリカ・カーネギーメロン大学らの研究チームは、ドーナツ生地のような弾塑性のある素材から、手を使ってドーナツのようなオブジェクトを制作するVR体験を可能とする「VR-Doh」を提案している。オブジェクトの生成と編集には、3Dシーンを生成するAI技術であるGaussian Splattingが応用されている。

研究チームはVR-Dohを評価するために、3Dモデリングの未経験者と経験者から構成された評価者たちに、同システムを活用した3Dモデリングを体験してもらって、その使い勝手を尋ねた。その結果、評価者全てが、直感的な3Dモデリングが可能と評価した。

VR-Dohの制限事項として、モデリング素材の表面に細かい線を描くといった繊細な操作に対応していないことがある。今後の研究目標は、触覚センサー付きのVR手袋と同システムを連携させて、繊細な操作にも対応することが挙げられる。

SIGGRAPH 2025では、昨年に引き続きグラフィックAI関連の論文が50本以上採択されていることから、グラフィックAIがCGの要素技術のひとつとなったと言える。

SIGGRAPH 2025では、実際の動画制作現場におけるニーズを意識した動画生成AIに関する論文が多数発表された。こうした論文の成果は、近い将来、動画制作ツールの機能のひとつとして実装されるだろう。

今後のグラフィックAI研究開発の動向として、テキスト入力から3D世界を作る3Dワールド生成が挙げられる。こうした動向の代表事例として、Google DeepMindが発表したGenie 3がある。VRやゲーム開発に応用できるこの技術については、SIGGRAPH Asia 2025などで本格的に研究論文が発表されるのではないだろうか。

TEXT＿吉本幸記 / Kouki Yoshimoto
EDIT＿小村仁美 / Hitomi Komura（CGWORLD）