コンピュータグラフィックスとインタラクティブ技術に関するアジア最大級のカンファレンスであるSIGGRAPH Aisa 2024が2024年12月3日から6日まで開催された。日本・東京において開催された同カンファレンスでは、48セッションにおいて合計277本の技術論文が発表された。本稿では、こうした発表のなかからAIとXRに関連した注目論文を10本、紹介する。

記事の目次

    関連記事

    3年ぶりの東京開催となった「SIGGRAPH Asia 2024」をふり返る〜SIGGRAPH Asia 2024(1)

    関連リンク

    ・発表された技術論文に関する全プログラム(公式ページ)
    asia.siggraph.org/2024/full-program

    ・カンファレンスで発表された注目すべき論文をピックアップしたダイジェスト動画

    ・技術論文に関する動画やサンプルコードのリンク集(非公式)
    www.realtimerendering.com/kesen/siga2024Papers.htm

    1.個人的な画像を素材とした複雑なプロンプト入力による画像生成を可能とする「PSLP」

    PALP: Prompt Aligned Personalization of Text-to-Image Models
    prompt-aligned.github.io

    Google Researchらの研究チームは、飼っているペットなどの個人的な被写体を含む画像生成において、複雑なテキストプロンプトとの整合性を高める技法「PALP(Prompt Aligned Personalization:パーソラナイズ整合されたプロンプト)」を提案した。

    従来の技法では、個人的な被写体の特徴の保持とテキストプロンプトの整合性の両立が困難であったため、個人的な被写体を使った複雑な画像生成が難しかった。

    本技法では、特定のプロンプトに対するパーソナライズを実施することで、生成画像をプロンプトに整合させる。具体的には、スコア蒸留サンプリングと呼ばれる技法によって、生成画像とプロンプトの一致度を測定して整合性を高める。その結果、複雑で詳細なプロンプトに対しても高いテキスト整合性を実現し、複数の被写体の合成やアート作品などの参照画像からのインスピレーションを活用した画像生成が可能となった。

    2.線画のフレーム群と手本となるカラー原画から着色動画を出力する「LVCD」

    LVCD: Reference-based Lineart Video Colorization with Diffusion Models
    luckyhzt.github.io/lvcd

    香港大学らの研究チームは、線画のフレーム群と手本となるカラー原画を入力すると、線画を着色するAI「LVCD(Lineart Video Colorization with Diffusion Models:拡散モデルによる線画動画の着色)」を提案した。

    このAIは線画の画像から動画への変換を大量に学習したモジュール、線画への着色を学習したうえで手本原画を参考にして動画に着色するモジュール、そして動画の特徴を維持しながら再生時間を延長するモジュールから構成されている。

    同AIには、微細な箇所の表現が劣化したり、一部分が隠れているキャラクターの着色に失敗したりする制限事項がある。

    3.2つのアニメ原画を入力すると複雑な運動を含む中割りを生成する「ToonCrafter」

    ToonCrafter: Generative Cartoon Interpolation
    doubiiu.github.io/projects/ToonCrafter/#top

    香港大学らの研究チームは前述の「LVCD」に加えて、2つのアニメ原画を入力すると、その間のフレーム画像を生成するAI「ToonCrafter」も提案した。

    従来における原画間の画像補完方法では、複雑な運動や遮蔽現象(重なり合い)を処理することができなかった。この問題を解決するために、研究チームは実写映像から得られた運動情報を活用した上で、アニメーションに特化した補間を行うような画像処理を開発した。具体的には「Toon修正学習」と命名した技法により、実写映像の動きやポーズをアニメーションに合わせて調整し、複雑な運動や遮蔽現象を上手く処理できるようにした。

    ユーザーが手描き画像で中間コマを補完して、動きの生成を細かく調整できるツール「スケッチエンコーダー」も提案されている

    4.画像全体の特徴を保持したまま画像内のオブジェクトをドラッグできる「DiffuHaul」

    DiffUHaul: A Training-Free Method for Object Dragging in Images
    omriavrahami.com/diffuhaul

    NVIDIAリサーチらの研究チームは、像内のオブジェクトをドラッグすると、そのオブジェクトの位置を変更できるAI「DiffuHaul」を提案した。

    このAIはオブジェクト位置変更前の画像の特徴を認識するモジュール「BlobGEN」と、オブジェクト移動中に生じる画像生成を実行するモジュール「Gated Self-Attrention Masking」を統合することで実現した。同AIに関して、従来技法と比較するアンケート調査を実施したところ、50%以上の割合で同AIの方が優れているという回答を得た。

    制限事項として、移動対象オブジェクトの回転やサイズ変更ができない、ドラッグ中のオブジェクト衝突を処理できない、といったことがある。

    5.わずか4枚の画像から高品質な3Dオブジェクトを生成する「GaussianObject」

    High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting
    gaussianobject.github.io

    ファーウェイ株式会社らの研究チームは、撮影時の視点が異なる4枚のオブジェクト画像から、そのオブジェクトを3Dオブジェクト化するAI「GaussianObject」を提案した。

    このAIは、2D画像から3Dオブジェクトを生成する技法であるガウシアンスプラッティングを活用している。さらに精度の異なる2回のガウシアンスプラッティングを実行することで、少ない画像から高品質な3Dオブジェクトの生成に成功した。

    GaussianObjectは4枚の画像から3Dオブジェクトを生成する性質上、素材画像から完全に欠落している視点からの描画については、存在しない細部、つまり画像に関するハルシネーションが生じてしまうという制限事項がある。

    6.テキスト入力から得られた画像の特徴を反映した動画を生成する「Still-Moving」

    Still-Moving: Customized Video Generation without Customized Video Data
    still-moving.github.io

    Google DeepMindらの研究チームは、テキストを入力して画像を生成した後、生成された画像の画風(特徴)を反映した動画を生成するAI「Still-Moving」を提案した。

    このAIの内部的処理は、テキスト画像生成AIと静止画から動画を生成するAIを統合したものとなっている。こうした統合は、静止画の特徴を動画に反映するように訓練されたモジュール「Motion Adapter modules」を実装することで実現した。

    Still-Movingの制限事項として、テキスト入力による画像の生成時にユーザーが意図したような特徴を備えた画像が出力されなかった場合、生成される動画もユーザーが意図したものとならないことがある。また、生成された被写体の特徴が動画の背景に過度に似てしまうオーバーフィッティング問題も生じることがある。

    7.動きやモーフィングを指定できる動画生成AI「TrailBlazer」

    TrailBlazer: Trajectory Control for Diffusion-Based Video Generation
    hohonu-vicml.github.io/Trailblazer.Page

    ニュージーランドのヴィクトリア大学ウェリントンらの研究チームは、生成動画内のオブジェクトの動きを制御できる動画生成AI「TrailBlazer」を提案した。

    このAIは、生成された動画内のオブジェクトを矩形で囲んだ上で、その矩形に(「上下」あるいは「左右」のように)設定された動きをオブジェクトに反映する。複数のオブジェクトの動きにも対応でき、(猫からライオンに変化するような)オブジェクトのモーフィングにも対応している。

    TrailBlazerも一般的な動画生成モデルと同様に、大量の画像を生成することで動画を出力している。それゆえ、時として画像生成に失敗した結果として、ユーザーの期待とは異なる動画が出力されることがある。

    8.NeRFで生成した3Dシーンをテキスト入力によって編集可能な「Style-NeRF2NeRF」

    Style-NeRF2NeRF: 3D Style Transfer from Style-Aligned Multi-View Images
    haruolabs.github.io/style-n2n

    東京大学らの研究チームは、3Dシーンをテキスト編集できるAI「Style-NeRF2NeRF」を提案した。

    このAIは、複数の画像から3Dシーンを生成する技法であるNeRFによって出力されたシーンを編集対象とする。例えばNeRFによって出力した農場のシーンに対して、「レトロアニメ風の農場」と入力すると、入力内容を反映した3Dシーンが出力される。

    同AIの制限事項として、草木のような繊細なテクスチャパターンをもつ薄いオブジェクトを含む3Dシーンや、異なる背景に配置された人物のような複雑な構造の3Dシーンの場合、3Dシーンの編集に失敗する場合がある。

    なお、同AIは、NeRFと同様に3Dシーンを生成する技法であるガウシアンスプラッティングによって生成された3Dシーンにも応用できる

    9.スマホを使って様々な照明条件のアバターを生成するAI「URAvatar」

    URAvatar: Universal Relightable Gaussian Codec Avatars
    junxuan-li.github.io/urgca-website

    Metaの研究チームは、スマホからスキャンした頭部からさまざまな照明条件のアバターを生成するAI「URAvatar」を提案した。

    このAIは、様々な照明条件で撮影された人間の頭部のスキャンデータを学習した上で、多様な照明条件を再現できる汎用的なアバターを開発したことで実現した。

    URAvatarの制限事項として、複雑な照明条件においてはアバターの眼の輝きに関する描画品質に問題がある場合がある。また、アバターの生成には一定の時間を要するため、アバターの即時生成を実現できていない。

    Meta研究チームは、以上のAIをフィジカルな存在のユーザーがスマホを介してバーチャルな世界に参入する「仮想テレポーテーション」の可能性を開く技術として位置づけている。

    10.楽器演奏のような複雑な動作をする人間のボリュメティック動画を生成する「DualGS」

    Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
    nowheretrix.github.io/DualGS

    上海科技大学らの研究チームは、高品質なボリュメティック動画を生成する技法「DualGS」を提案した。

    この技法は、楽器の演奏のような複雑な動作を実行する人間が被写体であっても、その動作を忠実に再現する。同技法でオブジェクトの動きを生成するジョイントガウシアンと、オブジェクトの表面を生成するスキンガウシアンの2種類の3Dシーン生成処理が実行されている。さらに動きをトラッキングする精度の異なる2種類のガウシアンスプラッティングを用いることで、忠実な動きを再現する。

    研究チームは、DualGSで生成されたボリュメティック動画をVRヘッドセットやスマホのようなモバイル機器から視聴することを可能とするDualGSプレイヤーも開発した。

    DualGSの制限事項として、楽器の弦や毛髪のような細いオブジェクトの動きに関しては、正確にトラッキングされない場合がある。また、生成動画の照明条件を変更することもできない。

    SIGGRAPH Asia 2024では前述のように277本の技術論文が発表されたが、そのうちAIに関連したものが50本以上あるので、グラフィックAIはCGにおける主要技術になったと言える。研究トレンドとしては、数年前から続いている複雑な画像生成研究があり、複雑な制御や編集を可能とする動画生成AIや、高品質な3Dオブジェクト生成などもさかんに研究されている。

    SIGGRAPH 2025およびSIGGRAPH Asia 2025で台頭すると予想されるグラフィックAI研究分野には、ゲーム生成AIが考えられる。こうしたAIの研究が進めば、グラフィックAIが用いられるフィールドがさらに拡大するだろう。

    TEXT_吉本幸記
    EDIT_小村仁美 / Hitomi Komura(CGWORLD)、山田桃子 / Momoko Yamada