コンピュータグラフィックスとインタラクティブ技術に関するトップカンファレンスであるSIGGRAPH 2022が、2022年8月8日(月)から11日(木・祝)まで開催された。カナダ・バンクーバーにおいてハイブリッド開催された同カンファレンスでは、31のセッションにおいて合計247本の技術論文が発表された。本稿では、こうした発表のなかからXRとAIに関連した注目論文を10本、紹介する。

関連記事:映画『ミラベルと魔法だらけの家』から、挿入歌「秘密のブルーノ」のミュージカル・シークエンスのメイキング~SIGGRAPH 2022(1)

記事の目次

    SIGGRAPH 2022関連リンク集

    ●発表された技術論文に関する全プログラム(公式ページ)
    s2022.siggraph.org/full-program

    ●カンファレンスで発表された注目すべき論文をピックアップしたダイジェスト動画

    ●技術論文に関する動画やサンプルコードのリンク集(非公式)
    kesen.realtimerendering.com/sig2022.html

    1.NeuralPassthrough: Learned Real-Time View Synthesis for VR

    Meta研究所が発表した本論文は、VRヘッドセットに装着した実世界を見るためのパススルーカメラの改善を論じている。パススルーカメラはユーザの目と同じ物理的位置にないため、従来はノイズが生じて低画質であった。

    Meta研究チームは、こうしたパススルーカメラの欠点を克服する方法として、奥行きを正しく推定する深度推定AIモデルを開発した。このAIモデルによって、パススルーカメラの画質向上が実現した。

    今後の課題として、深度推定が上手く機能しないケース(例えばテクスチャが少ない領域)に対する改善を行うことを予定している。

    2.Interactive Augmented Reality Storytelling Guided by Scene Semantics

    changyangli.github.io/assets/paper/sig22arstorytelling.pdf

    アメリカのジョージ・メイソン大学らの研究チームが発表した本論文は、インタラクティブなARストーリーを実現する技術を論じている。同論文が想定しているストーリーは、ユーザーがスマートグラスなどを装着した上で、室内でARキャラクターとインタラクションするというもの。ユーザーの行動によって、ARキャラクターの挙動が変化する。ARキャラクターの行動は、グラフに表現されて管理される。

    今回の研究では固定されたストーリーのみをサポートしていたが、将来的にはストーリーの展開をユーザーの行動に合わせて柔軟に変えられるようにするため、ストーリーの自動オーサリング機能を統合することを検討している。

    3.Neural 3D Reconstruction in the Wild

    arxiv.org/pdf/2205.12955.pdf
    zju3dv.github.io/neuralrecon-w/

    中国の映像関連企業Image Derivativeらの研究チームが発表した本論文は、2D画像から3Dオブジェクトを生成するAIモデルを論じている。従来の同種の技術は、一様な照明環境下で3Dオブジェクトを撮影した2D画像が必要であった。

    今回発表された技術では、様々な照明環境下で撮影された2D画像を活用できるようになった。その結果、インターネット上の画像から有名な建造物の3Dオブジェクトを生成できるようになった。

    以上に引用した同論文のプロジェクトページにアクセスすれば、実際に合成された3Dオブジェクトのサンプルを操作できる。なお、合成素材となる2D画像のカメラ設定が不正確な場合、合成品質が劣化するという限界がある。

    4.AvatarCLIP: Zero-shot Text-driven Generation and Animation of 3D Avatars

    arxiv.org/pdf/2205.08535.pdf

    シンガポールの南洋理工大学らの研究チームが発表した本論文は、テキスト入力によって3Dアバターを生成する技術を論じている。例えば「水を飲んでいる背の高い痩せた女教授」とテキスト入力すると、この記述に沿った3Dアバターが生成される。この技術には、AIモデル「CLIP」が活用されている。

    なお同技術には、学習データに起因するバイアスが潜在している。例えば「医者」というテキスト入力に対しては、男性のアバターが生成される。この事例はジェンダーバイアスを示している。また、同技術が進化すると技術的知識のないユーザーがフェイク動画の制作のような悪用を目的として、アバターを生成するリスクも指摘されている。

    5.Text2Human: Text-driven Controllable Human Image Generation

    arxiv.org/pdf/2205.15996.pdf

    前出のシンガポールの南洋理工大学らの研究チームが発表した論文。いくつかの属性をテキストで設定すると、その設定に沿った衣服を着たモデルの画像を生成する技術「Text2Human」を論じている。

    例えば「男性」、「白のTシャツ」、「デニムパンツ」と入力すると、そのような設定が反映された画像が生成される。ただし、現時点では3つの制約がある。1つ目の制約は生成されるポーズにあまり多様性がなく、例えば足を組んだ画像は生成されない。2つ目は、(縞模様のような)一部のテクスチャがうまく描画されない。この制約は、学習データ不足に起因する。3つ目は、入力テキストと生成画像の対応関係がまだ少ない。例えば、袖の長さに関するテキスト表現は4種類しか定義されていない。今後は、こうした制約を克服することが課題となる。

    6.Artemis: Articulated Neural Pets With Appearance and Motion Synthesis

    arxiv.org/pdf/2202.05628.pdf

    中国の上海大学らの研究チームが発表した本論文は、外見と動きがリアルなバーチャルペットを生成するAIモデル「Artemis」を論じている。同モデルは、動物の外見を生成するモデルと動きを生成するそれを統合することで実現した。

    動きの生成には、実物の動物からモーションキャプチャしたデータが使われている。ただし、同モデルが生成するモーションは事前に定義されたルールに依存しているため、まったく未知のモーションを生成できない。今回の研究は、複数の視点から撮影した動物に関する動画があれば、よりフォトリアルな動物の3Dオブジェクトを生成できる方向に進化する余地がある。

    7.GANimator: Neural Motion Synthesis from a Single Sequence

    peizhuoli.github.io/ganimator/paper/ganimator-camera-ready.pdf

    スイスのチューリッヒ工科大学らの研究チームが発表した本論文は、単一の短いアクションアニメーションから様々なアクションを派生的に生成するAIモデルを論じている。

    例えば人間が歩行しているアニメーションから、カニが歩行するアニメーションを派生的に生成できる。同モデルには、GAN(Generative adversarial networks:敵対的生成ネットワーク)が応用されている。今回の研究におけるモーションの生成は事前学習したデータにもとづいているため、拡張性に乏しい。今後はオンライン学習を実装することで、より複雑かつ広範なモーション生成を目指している。

    8.SofGAN: A Portrait Image Generator with Dynamic Styling

    arxiv.org/pdf/2007.03780.pdf

    中国の上海科技大学らの研究チームが発表した本論文は、生成属性を指定できるGANを論じている。実在しない人物のフォトリアルな画像を生成できることで有名になったGANは、髪や肌の色を指定した生成ができなかった。同論文で発表されたSofGANは、髪や肌の色といった属性を指定して画像を生成できるようになった。

    さらには撮影時の視点を(例えば正面から右斜め方向に)異なったものにしたり、笑顔が写った画像をニュートラルな表情のそれに変えたりできる。ただし、文字が入った帽子を被った顔画像を生成する場合、文字がうまく描画できなかったり、顔に対する背景部分がぼやけたりする制約がある。こうした制約は、顔以外の領域の画像生成機能を改善することで克服できると考えられる。

    9.Learning Soccer Juggling Skills with Layer-wise Mixture-of-Experts

    www.cs.ubc.ca/~van/papers/2022-SIGGRAPH-juggle/soccer_juggling.pdf

    カナダのブリティッシュ・コロンビア大学らの研究チームが発表した本論文は、簡単なリフティングのようなサッカーの基本的なモーションに関する情報を与えると、そのモーションを上達させる強化学習モデルを論じている。同モデルの開発にあたっては、サッカーのモーションを記述するフレームワークを導入した。

    この研究は、人間のプロアスリートのような動作を再現するAI研究の重要な第一歩となる。今回はサッカーのモーションの学習するように開発したが、バスケットボールに学習内容を変更できる。さらには、リフティングの最中に他のAIプレイヤーにボールをパスするような複数のエージェントの学習にも対応可能である。

    10.MoRF: Morphable Radiance Fields for Multiview Neural Head Modeling

    studios.disneyresearch.com/app/uploads/2022/07/MoRF-Morphable-Radiance-Fields-for-Multiview-Neural-Head-Modeling.pdf

    ディスニーリサーチらの研究チームが発表した本論文は、人間頭部の3Dモデリングに関する新技術を論じている。近年発明されたAI描画技術であるNeRFでは、単一の特徴をもつ頭部3Dオブジェクトを生成できた。

    今回発表されたAIモデルはNeRFを発展させたもので、複数の頭部3Dオブジェクトから新たな頭部オブジェクトを生成できる。例えば、任意の2人の顔の特徴を合わせ持つ新たな頭部3Dオブジェクトが生成可能となった。今回の研究ではニュートラルな表情の頭部の生成を実現したが、今後は表情のある頭部生成に機能拡張する。さらには、複雑な髪形の生成にも対応する予定である。

    以上に紹介した中でも、南洋理工大学が発表したテキスト入力から画像を生成する「テキスト画像生成AI」を論じた論文が特に注目に値する。というのも、こうしたAIに関しては、クリエイターだけではなく技術的知識のない一般ユーザーも大きな関心を寄せているからである。DALL-E 2MidJourneyといったAIは、一般ユーザーが高品質な画像を制作する手段を提供する。さらには、AIによってクリエイティブ業界の産業構造が大きく変わる可能性がある。それゆえ、クリエイティブなAIの動向に今まで以上に注意を払う必要があるのではないだろうか。

    TEXT_吉本幸記 / Kouki Yoshimoto
    EDIT_山田桃子 / Momoko Yamada