コンピュータグラフィックスとインタラクティブ技術に関するトップカンファレンスであるSIGGRAPH2024が7月28日から8月1日まで開催された。アメリカ・デンバーにおいてハイブリッド開催された同カンファレンスでは、47のセッションにおいて合計294本の技術論文が発表された。Electronic Theaterを紹介した前回に続き本稿では、そうした発表のなかからXRとAIに関連した注目論文を10本、紹介する。

記事の目次

    関連記事

    2年ぶりに日本作品も選出! 世界最大級のCGの祭典SIGGRAPHから、Electronic Theater入選21作品を紹介〜SIGGRAPH 2024(1)

    関連リンク

    ・発表された技術論文に関する全プログラム(公式ページ)
    s2024.conference-program.org/?_gl=1*1l1mhb8*_gcl_au*MTM2NzAxMDYyNS4xNzIxODg2NDg0*_ga*MTM3NzUyNzk2OC4xNzIwOTE4OTA1*_ga_RL605478DH*MTcyNDA1MTI5NS43LjEuMTcyNDA1MTQxNS4xMy4wLjA.

    ・カンファレンスで発表された注目すべき論文をピックアップしたダイジェスト動画

    ・技術論文に関する動画やサンプルコードのリンク集(非公式)
    www.realtimerendering.com/kesen/sig2024.html

    1. 表情豊かな3D顔アニメーションを生成する「Media2Face」

    Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance
    sites.google.com/view/media2face

    中国・上海科技大学らの研究チームは、音声からフォトリアルな3D顔アニメーションを生成するモデル「Media2Face」を提案している。このモデルの開発にあたっては、表情豊かな顔を撮影した動画をGNPFA(Generalized Neural Parametric Facial Asset)と呼ばれる技法を用いることで、顔の形状と表情の特徴を分離して学習することに成功した。

    以上のような学習により、音声に伴う感情に合致した表情をアニメーションとして生成できるようになった。さらには音声だけではなく、「悲しい顔で」というようなテキストや絵文字や画像も入力すると、そうした入力に合致した表情を生成する。

    Media2Faceは、表情豊かなデジタルヒューマン開発への応用が期待されている。

    2. 人物の多様な画像を生成できる「The Chosen One」

    The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
    omriavrahami.com/the-chosen-one

    Google Researchらの研究チームは、同一性を保ちながら様々なテキスト入力を反映した複数の人物画像を生成するモデル「The Chosen One」を提案している。同モデルは任意のテキスト入力に対して複数の人物画像を生成した後、共通した特徴ごとにグループ分けをする。

    グループ分けした画像に対してさらにテキスト入力すると、共通した特徴を保持しながら、入力したテキスト内容に沿った画像を生成する。このようにして、同一性を保ちながらさまざまな人物画像を生成する。

    The Chosen Oneは、画像生成における課題のひとつであった同一人物に関する多様な画像生成の解決策と言える。同モデルの応用には、同一人物画像において人物のポーズをテキストプロンプトによって変更したり、ControlNetを用いてポーズを指定したりすることが考えられる。

    3. テキスト入力から3D衣服オブジェクトを生成する「DressCode」

    DressCode: Autoregressively Sewing and Generating Garments from Text Guidance
    ihe-kaii.github.io/DressCode

    中国・上海科技大学らの研究チームは、テキスト入力から3D衣服オブジェクトを生成するモデル「DressCode」を提案している。例えば「暗い黄色と青のストライプ」「丈の短いパンツ」とプロンプト入力すると、このプロンプトの内容に合致した3D衣服オブジェクトが生成される。

    DressCodeは、テキスト入力からスカートやTシャツといった衣服の基本的な分類と形状を理解したうえで衣服の3Dオブジェクトを生成する機能と、テキスト入力から衣服の柄を生成する画像生成機能を統合して開発された。

    DressCodeには「ポケット付きパーカージャケット」のような多層構造の衣服や、「パーカー付きドレス」のようなあまり見かけない衣服の生成ができない制限事項がある。この制限は、学習データを増やすことで解決できると予想される。

    なお、この論文はSIGGRAPH 2024の優秀論文に選出された

    4. 人間のモーションアニメーションにおけるキーフレーム間を補完する「CondMDI」

    Flexible Motion In-betweening with Diffusion Models
    setarehc.github.io/CondMDI

    カナダ・ブリティッシュ・コロンビア大学らの研究チームは、人間のモーションアニメーションにおけるキーフレーム間を補完するモデル「CondMDI」を提案している。このモデルは2つのキーフレーム間のアニメーションを補完するのに、画像生成モデルで活用されている拡散モデルを用いている。

    CondMDIには拡散モデルが用いられているため、テキスト入力による生成結果の制御が可能である。例えば、歩行する人間のアニメーションを補完する際に「踊りながら」と入力すると、ダンスのステップを踏みながら歩行するアニメーションが生成される。

    CondMDIの訓練には、「歩く」「ジャンプする」といったテキスト表現とその表現に合致する3D人体アニメーションをペアにしたデータセットHumanML3Dが使われている。

    5. 見えている光景に応じたARアニメーションを描画するARシステム

    Dragon's Path: Synthesizing User-Centered Flying Creature Animation Paths for Outdoor AR Experiences
    https://minyoung-mia-kim.github.io/projects/sig24ardragon/

    アメリカ・ジョージ・メイソン大学らの研究チームは、テキスト入力したストーリーに沿って、飛翔型ARキャラクターのARアニメーションを生成するシステムを提案している。このシステムを使えば、ARドラゴンに対して「泳いでから休む」のような簡単なストーリーを入力すると、ユーザが見えている景色のなかでストーリーに沿ったアニメーションが生成される。

    以上のようなアニメーションを生成する際、「泳ぐ」「休む」といった各動作が描画されるのにふさわしい場所が自動的に選択される。例えば「泳ぐ」アニメーションは、水が見えている場所で描画される。

    提案されたシステムがアニメーションを描画する際、前提として描画の背景となる物理世界の特徴を認識していることが求められる。しかしながら、現時点では小さい花々や動いている人間などは認識できない。こうした制限事項の克服に加えて、アニメーションを複数のユーザで共有できるようにすることが課題として挙げられる。

    6. 物理空間を忠実に再現したVR空間内での編集作業を可能とする「VR-GS」

    VR-GS: A Physical Dynamics-Aware Interactive Gaussian Splatting System in Virtual Reality
    yingjiang96.github.io/VR-GS

    アメリカ・カリフォルニア大学ロサンゼルス校らの研究チームは、物理的な空間をVR空間として再構築したうえで、そのVR空間でVRオブジェクトをVRコントローラによって編集する技術「VR-GS」を提案している。物理空間を再構築する技術として、3D Gaussian Splattingを活用している。

    VR-GSによって、VRヘッドセットを装着しながら、物理世界を忠実に再現したバーチャルな庭で実在しない熊の石像を編集するような体験が可能となる。

    VR-GSは計算負荷の高い3D Gaussian Splattingを用いているため、物理世界を忠実に再現した2K画質のVR空間の描画には長時間の演算を要するという課題がある。さらに今後の目標として、流体や衣服の忠実な再現が挙げられる。

    7. 複雑な形状の3Dオブジェクトを生成する「CLAY」

    CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
    sites.google.com/view/clay-3dlm

    中国・上海科技大学らの研究チームは、テキストや画像から複雑な形状の3Dオブジェクトを生成できるモデル「CLAY」を提案している。同モデルには、複雑な形状の特徴を抽出するために多重解像度変分オートエンコーダと潜在拡散Transformerが実装されている。

    CLAYが高品質な3Dオブジェクトを生成できる理由として、高品質な学習データによって訓練されたことが指摘できる。具体的には、既存の3DオブジェクトデータセットであるShapeNetObjaverseから選定した高品質な52万7,000個の3Dオブジェクトを学習データとして使用した。

    CLAYの制限事項として、「バイクに乗る虎」のような複数の複雑な3Dオブジェクトから構成された出力については、低品質になってしまう傾向がある。こうした制限は、学習データをさらに大規模にすることで克服できると考えられる。

    なお、この論文はSIGGRAPH 2024の優秀論文に選出された

    8. 整合的かつ高品質に画像を補完する「RealFill」

    RealFill: Reference-Driven Generation for Authentic Image Completion
    realfill.github.io

    Google Researchらの研究チームは、画像の欠落部分を高品質に補完するモデル「RealFill」を提案している。画像内の一部を整合的に塗りつぶすインペインティングや画像を外側に拡張するアウトペインティングはすでに一般的な技術ではあるが、時として整合性が欠落した補完を実行する。こうしたなか同モデルは、数枚の画像(最大5枚)を参照することで高品質かつ整合的に画像を補完することを実現した。

    RealFillが参照する画像は、同一の被写体が撮影されている単一のシーンであれば、カメラ位置や照明が異なっていても補完処理が可能である。こうした参照画像を学習して、補完対象となる画像の欠落部分を出力する生成モデルを作成したうえで、補完処理を実行する。

    なお、RealFillには補完対象画像と参照画像のあいだで非常に大きな視点変化がある場合、補完に失敗するなどの制限事項があるため、改善の余地が残されている。

    9. カメラ制御可能な動画生成モデル「Direct-a-Video」

    Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion
    direct-a-video.github.io

    香港城市大学らの研究チームは、カメラ制御可能なテキスト動画生成モデル「Direct-a-Video」を提案している。Soraをはじめとする現状の動画生成モデルは、細かなカメラ動作の制御が難しい。対して同モデルはテキスト入力に加えて、カメラをX軸プラス方向にパンするといったカメラ制御に関する指示が可能である。

    Direct-a-Videoにおいてカメラ制御が可能なのは、動画データセットを使った訓練時に動画生成処理とは別に、カメラの動きを学習しているからである。こうしたカメラ制御の学習にはズームイン/アウト、動く被写体の追尾といった複雑な内容も含まれている。

    もっともDirect-a-Videoには、2つの被写体が重なり合うような時に動画生成に失敗する可能性がある。例えば「雪原の上の熊と虎」のようなプロンプトを入力した場合、生成されたクマと虎が重なり合うようなフレームでは、虎の頭部が熊として描画されるような失敗が生じる。

    10.テキスト入力から群衆行動を生成するAIモデル

    Text-Guided Synthesis of Crowd Animation
    mlzg.github.io/Publications/Sig24_TextCrowd/

    香港大学らの研究チームは、移動する群衆に関する文章を入力すると、その入力内容に合致するように群衆行動アニメーションを生成するモデルを提案している。このモデルは群衆が行動する環境と移動する際の移動速度と方向を学習したうえで、入力テキストを理解する大規模言語モデルを統合することによって実現した。

    以上のモデルが群衆行動を生成する際には、群衆を複数のグループに分けたうえでその行動を生成する。各グループの行動は、大規模言語モデルによって入力テキストからスクリプトを生成したうえで、そのスクリプトをグループごとに割り当てることで実行可能となる。

    以上のモデルは、ゲーム開発における群衆行動の実装を容易にするポテンシャルがある。しかしながら、現時点ではオープンワールドのような複雑かつ広大な環境における利用には対応していない。また、複雑な群衆行動を生成する場合、入力テキストが複雑になってしまうという課題も残されている。

    SIGGRAPH 2024では、複雑な画像生成、動画生成、3Dオブジェクト生成といった3つのカテゴリを中心としてAIグラフィック技術に関する技術論文が激増しており、以上に紹介したのはそうした論文のごく一部である。

    今後のAIグラフィック技術の動向として、動画生成AIの本格的な市場投入が予想される。こうしたAIが動画制作現場に普及する過程で、以上に紹介したようなカメラ制御やフレーム間補完が動画制作者にとって「当たり前の技術」になっていくだろう。

    TEXT_吉本幸記
    EDIT_小村仁美 / Hitomi Komura(CGWORLD)、山田桃子 / Momoko Yamada