【SIGGRAPH Asia 2025】テキストによる動画編集、3Dワールドの生成と探索、音声入力によるVRアバター生成などが登場。AIとXRに関連した注目論文をピックアップ

コンピュータグラフィックスとインタラクティブ技術に関するアジア最大級のカンファレンスであるSIGGRAPH Asia 2025が2025年12月15日から18日まで開催された。香港において開催された同カンファレンスでは、53セッションにおいて合計316本の技術論文が発表された。本稿では、こうした発表のなかからAIとXRに関連した注目論文を10本、紹介する。

記事の目次

1．画像内オブジェクトを様々に編集できる「BlobCtrl」

BlobCtrl: Taming Controllable Blob for Element-level Image Editing
liyaowei-stu.github.io/project/BlobCtrl/

北京大学らの研究チームは、画像内の特定のオブジェクトに対して、様々な編集を実行できる画像生成モデル「BlobCtrl」を提案している。実行できる編集は、オブジェクトを移動させる「移動」、サイズを拡大縮小する「サイズ変更」、オブジェクトを削除する「削除」、オブジェクトを画像内のほかのオブジェクトに置換する「置換」、新規オブジェクトを追加する「構成」がある。

BlobCtrlは、単一の編集操作の反復のみ可能であり、編集結果を元に戻すことができない。今後の研究方向として、「編集操作の合成」や「編集結果を元に戻す」のような編集操作の拡張を目指している。

2．テキストプロンプトによる編集や画像を融合できるSnapchatの動画生成モデル

Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA
snap-research.github.io/zero-shot-dynamic-concepts/

Snapchatを開発するSnapの研究チームは、動画に対してテキストで編集したり、画像を融合したりできる動画生成モデルを提案している。このモデルを活用すると、例えばポートレート動画に対して「背景に雨」と入力すると、雨が降っている様子が追加されたり、自動車が走行している動画と土埃が舞う動画を融合すると、土埃を上げながら自動車が走行する動画が出力されたりする。

以上の動画生成モデルの制限事項として、アクロバティックな宙返りや鞭のしなるような動きといった急激に変化する動画を融合しようとすると、動画品質が劣化することがある。今後の研究では、長尺の動画の融合やより複雑かつ多様な動画編集の実現を目指している。

3．動画内のオブジェクトの削除や背景差し替えができる「OmnimatteZero」

OmnimatteZero:Fast Training-free Omnimatte with Pre-trained Video Diffusion Models
dvirsamuel.github.io/omnimattezero.github.io/

イスラエルにあるエルサレム・ヘブライ大学とNVIDIAらの研究チームは、動画編集モデル「OmnimatteZero」を提案している。このモデルを使うと、動画内の特定のオブジェクトを削除できたり、動画内の特定の背景を入れ替えたりできる。こうした機能は、動画内のオブジェクトと背景を識別することで可能となる。

OmnimatteZeroの制限事項として、オブジェクト同士が大きく重なり合う重度のオクルージョンがある動画や低解像度の動画では、削除や背景差し替えの精度が劣化することがある。また、高度に複雑なシーンや極めてまれなシーンを処理する場合も、画質が劣化する可能性がある。こうした制限事項を克服して、将来的には動画編集アプリに本モデルを実装することを目指している。

4．人物画像に人物の動作を反映させるByteDanceの「X-UniMotion」

X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents
byteaigc.github.io/X-Unimotion/

ByteDanceの研究チームは、人物の静止画に人物動画で描画された動作を反映させる「X-UniMotion」を提案している。このモデルを活用すると、例えば静止画の少女画像を素材にして、静止画とは異なる少女のジェスチャーを合成して、画像の少女がジェスチャーする動画を生成できる。このモデルは、過去に同社が発表した静止画とダンス動画を合成するモデルの発展形と言える。

X-UniMotionの制限事項として、複数人物の動作合成には対応していない。また、合成対象は人間と（アニメキャラクターのような）擬人化されたキャラクターのみとなっており、動物のような人間以外のキャラクターの動作を合成できない。今後の研究課題として、人間と動物、人間と無生物のような異種対象間の合成を目指す。

5．11万1千の個性あるアバターを生成できる「InfiniHuman」

InfiniHuman: Infinite 3D Human Creation with Precise Control
yuxuan-xue.com/infini-human/

ドイツ・テュービンゲン大学らの研究チームは、様々な3D人間アバターを生成する「InfiniHuman」を提案している。このモデルは、11万1千の個性をもつ人間アバターの生成に対応しており、例えば「アインシュタイン」のような著名人の人名のテキスト入力から、衣服の画像の入力まで対応している。

InfiniHumanは高画質かつフォトリアルな3Dアバターを生成できる一方で、生成処理が遅いという欠点がある。また、著名人名のテキスト入力からの生成時に言語モデルのGPT-4oを活用しているため、肖像権の問題からこうした入力が拒否されることがある。この問題を解決するために、将来的にはGPT-4o以外の言語モデルの活用を検討している。

6．テキスト入力から複雑な形状のオブジェクトを生成できる「ART-DECO」

ART-DECO: Arbitrary Text Guidance for 3D Detailizer Construction
qiminchen.github.io/artdeco/

カナダのサイモン・フレーザー大学とAdobeらの研究チームは、複雑な形状の3Dオブジェクトを生成できる「ART-DECO」を提案している。同モデルは、最初に単純な形状の3Dオブジェクトを入力した上で、入力テキストで「テーブル」のようにオブジェクトを定義すると、その定義にしたがったオブジェクトを生成する。このオブジェクトに対して、ユーザーは複雑な形状にする編集を実行できる。さらに、「木製のテーブル」のようにオブジェクトの詳細を追加入力できる。このようにして、最終的に複雑な形状の3Dオブジェクトが生成できる。

ART-DECOの制限事項として、植物の葉のような微細な構造のオブジェクトを忠実に生成できない。また、生成したオブジェクトの各面に固定した色を設定するため、反射や光沢のような光による色変化を表現できない。こうした課題を克服するには、同モデルのさらなる訓練が不可欠となる。

7．Gaussian Splatting出力をメッシュ情報に変換する「DeMapGS」

DeMapGS: Simultaneous Mesh Deformation and Surface Attribute Mapping via Gaussian Splatting
shuyizhou495.github.io/DeMapGS-project-page/

東京大学とサイバーエージェントの共同研究チームは、Gaussian Splattingをメッシュ情報に変換する技法である「DeMapGS」を提案している。2D画像から3Dシーンを生成する技法として普及しているGaussian Splattingは、描画情報を点情報として処理するため、CG処理で一般的なメッシュ情報に変換するのが困難であった。DeMapGSは、テンプレートメッシュと呼ばれる3DメッシュにGaussian Splattingの点情報を配置することで、3Dメッシュへの変換を容易にした。

DeMapGSの制限事項として、テンプレートメッシュの形状が単純であるため、複雑な形状の変換処理に対応できないことがある。

同モデルの活用方法として、メッシュ変換したオブジェクトの表面編集や、メッシュ変換した複数のオブジェクトを対象とした表面補間などの操作が挙げられる。

なお、DeMapGSはサイバーエージェントのプレスリリースにおいて日本語で解説されている。

8．テキスト生成した3Dワールドを自由に探索できる「WorldExplorer」

WorldExplorer: Towards Generating Fully Navigable 3D Scenes
mschneider456.github.io/world-explorer/

ドイツ・ミュンヘン大学の研究チームは、テキスト生成した3Dワールドを自由に探索できる「WorldExplorer」を提案している。このモデルを活用すると、例えば「オアシスが点在する砂漠」とテキスト入力すると、テキスト内容を反映した3Dワールドを360°探索できる。同モデルは、3Dワールド生成過程で360°パノラマ画像を生成することで、視点移動時の描画品質劣化という従来モデルの弱点を克服した。

WorldExplorerは、ユーザーの操作に合わせて連続的に動画を生成することで、3Dワールドの探索を可能としている。こうしたしくみにより、テキストから最初に生成された3Dシーンの描画が、3Dワールド全体の描画を制約することになる。今後の研究課題として、最初に生成された3Dシーンに制約されない、多様な3Dワールドの生成が挙げられる。

9．テキスト入力から複雑なリグ構造の3Dアニメーションを生成する「AnimaX」

AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
anima-x.github.io/

中国・北京大学らの研究チームは、テキスト入力から複雑なリグ構造をもつ3Dアニメーションを生成する「AnimaX」を提案している。同モデルは、16万のリグ構造に関するシーケンシャルなデータセットを学習した結果、複雑なリグ構造の動きを実現した。こうした学習により、物理学に忠実なリグの動きも可能となった。

研究チームは、AnimaXの性能評価のために同モデルと類似した2つの既存モデルとの比較実験を行なった。テキストとアニメーションの整合性、形状の一貫性、全体的な動作品質について、30人の評価者に評価してもらったところ、AnimaXが最も高評価だった。

今後の研究方針として、生成可能なアニメーションのカテゴリ拡張が挙げられる。

10．音声入力から表情豊かなVR空間用アバターを生成できるMetaのVRシステム

Audio Driven Real-Time Facial Animation for Social Telepresence
jiyewise.github.io/projects/AudioRTA/

Metaとソウル大学校の共同研究チームは、表情豊かなVR空間用アバターを生成する音声駆動型リアルタイムシステムを発表した。このシステムは、ユーザーの顔をフォトリアリスティックに再現したVR空間用アバターに対して、ユーザーが入力する音声から感情情報を抽出して、表情豊かなアバターをリアルタイムに生成する。このシステムは、VRヘッドセット内蔵アイカメラからユーザーの表情を取得して、アバターに反映する拡張性も有している。

以上のVRシステムの制限事項として、アバターの毛髪や（歯や舌といった）口腔内部の描画が劣化することがある。また、計算資源の問題により、アバターの頭部姿勢を描画・制御する処理が不十分である。今後の研究は、これらの制限の克服が課題となる。

SIGGRAPH Asia 2025では、316本の技術論文のうち、少なくとも80本以上がグラフィックAI関連論文なので、4本に1本はこのカテゴリの論文ということになる。グラフィックAIは、今やCG技術における一大勢力なのだ。

同カンファレンスでは、画像生成、動画生成、3Dオブジェクト生成といった既存研究分野で、制作現場のニーズを意識した成果が報告された。3Dオブジェクトにモーションやアニメーションを付与した4D生成に関する研究も増加した。

さらに、新規研究分野として3Dワールド生成が台頭した。この分野では前述のWorldExplorerのほかにも、中国大手IT企業Tencentらの研究チームが発表したVoyagerがある。この分野が発展すれば、3Dオープンワールド開発の技術的敷居が下がる”3Dオープンワールド開発の民主化”が起こるかもしれない。

TEXT＿吉本幸記 / Kouki Yoshimoto
EDIT＿小村仁美 / Hitomi Komura（CGWORLD）、山田桃子 / Momoko Yamada