ミュンヘン工科大学Meta Reality Labsの研究チームは2月28日(金)、スマートフォンで4枚程度の顔写真を撮影するだけで、高品質なフェイシャルアニメーション対応の3D Gaussian Splattingによるアバター頭部モデル生成が可能なニューラルネットワーク手法「Avat3r」を発表した。オープンソース技術としてGitHubでのコード公開が予定されている。

Avat3rによるモデル生成処理のながれ

▲4枚の写真からフェイシャルアニメーション可能な3D Gaussian Splattingモデルを生成

Avat3rでは、スマートフォンなどで撮影した4枚の顔写真(から3D形状を復元するLarge Reconstruction Models:LRMs)、「DUSt3R」(画像から各ピクセルが空間上のどの位置にあるかを推定する技術)からの3D位置マップ、「Sapiens」(人間の「顔」に特化して大量に学習した基礎モデル)からの特徴マップという3つの要素を入力する。

入力された画像は小さなパッチに分割されたのちトークン(情報の単位)に変換され、最新技術「Vision Transformer」(画像内のパッチ同士がself-attentionによりお互いの関係性を学習するニューラルネットワーク)によって3Dの構造情報が抽出される。

続いて、Avat3rが備える「expression code」(顔の表情を数値化した情報)をcross-attention(情報と、画像から抽出した特徴を関連付ける技術)で読み取り、フェイシャルアニメーションに必要な情報を統合する。

そして、ニューラルネットワークはピクセル単位で3D Gaussian Splattingの位置・サイズ・回転・色・透明度といったパラメータを予測し、それらを統合して3Dの頭部モデルを生成する。


なお、フェイシャルアニメーションの生成は計算結果のキャッシュデータを再利用・更新することで行えるため、8fps程度のアニメーションをリアルタイムで適用できる。

▲Avat3rの手法概要

顔写真1枚からでも良好な生成結果

研究チームはまた、4枚の顔写真よりもさらに条件を狭めた1枚の顔写真、石膏像の頭部写真、絵画といった入力ソースからも良好なフェイシャルアニメーション付き3D頭部アバターが生成できたとし、Avat3rの広い応用範囲について言及している。

■Avat3r : Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars(プロジェクトページ、英語)
https://tobias-kirschstein.github.io/avat3r/

CGWORLD関連情報

●タブレットで描いたラフが3Dメッシュに! 生成AIによるメッシュ作成・編集技術「MeshPad」発表

ミュンヘン工科大学とアウディの研究チームが、生成AIによりスケッチからインタラクティブにメッシュの作成と編集が可能となる技術「MeshPad」の論文を発表。大規模なトランスフォーマー(ニューラルアーキテクチャの一種)モデルを利用することで、スケッチによる形状の追加と削除を高品質なメッシュに置き換えることを可能にしている。ソースコードは今後公開予定。
https://cgworld.jp/flashnews/202503-MeshPad.html

●とよふく氏による写真からポーズを生成できるWebサービス「Posekit」公開! 頭身変更可能な3Dポーズモデルを作成、無料で利用可能

WebサービスやControlNetの個人開発者・とよふく氏は2月23日(日)、写真からキャラクターのポーズを推定し3Dポーズモデルを生成できるWebサービス「Posekit」を一般公開した。
https://cgworld.jp/flashnews/Yeq6X-Posekit.html

●3D PBRアセットを5秒で生成するオープンソースのAI技術「3DTopia-XL」! AIカンファレンスCVPR 2025採択

南洋理工大学(シンガポール)、北京大学、Shanghai AI Laboratory、香港中文大学の研究チームは2月27日(木)、AIによる高速・高品質な3D PBRアセット生成技術「3DTopia-XL」が、IEEEとCVFが6月に開催するAIカンファレンス「CVPR 2025」で採択されたことを発表した。
https://cgworld.jp/flashnews/202503-3DTopiaXL.html