Meta Reality Labsトロント大学らの研究チームは2月11日(火)、画像生成AI技術「Pippo : High-Resolution Multi-View Humans from a Single Image」の論文を発表し、GitHubでトレーニングコードを公開した。本技術は、トランスフォーマーをベースにした拡散モデル(DiT、Diffusion Transfomer)により、1枚の人物写真から複数アングルを推定し、1K解像度のマルチビュー画像を生成するもの。

本プロジェクトのゴールは「純粋な2Dの拡散(diffusion)をスケールアップすることにより、可能な限りベストな3Dデジタルヒューマンのジェネレータをつくること」。技術的には、これまで重要視していたキーポイントやデプス、ノーマルなどを用意せずに、1K解像度のマルチビュー拡散モデルを生成することだったという。

▲入力した人物写真(左)と生成されたマルチビュー画像(右)
▲入力写真(左)と撮影した実写動画(右上)、生成されたマルチビュー動画(右下)
▲Pippoのパイプライン。スタジオでキャプチャしたデータを使用して、マルチビュー拡散モデルのトレーニングを行う(左)。その際は、リファレンス写真とトリミング済みの顔面、ターゲットビューのカメラ、頭の位置と向きを示す2D投影された空間アンカーを条件にする。空間アンカーは学習にのみ使用され、推論時には任意の位置に固定する(右)
▲Pippoに3D空間を理解させる方法はシンプル。空間に3Dアンカーを置いて、希望の視点からの見え方を見せるだけだ

Pippoのトレーニングは3段階に分けて行われた。まずは30億枚の人物写真(キャプションなし)で事前トレーニングを行い、次にスタジオのキャプチャデータによるトレーニングだが、ここでは小さな解像度で、48ビューの長いコンテキストを用いる。そして最後に1K解像度のスタジオキャプチャデータによるトレーニング。コンテキストは2ビューのみ用いている。


またPippoでは、最適なエントロピー減衰(entropy attenuation)のために、アテンションバイアスの範囲を1.4~1.6に設定したグロースファクターハイパーパラメータ(Growth Factor hyperparameter)を導入。これによりビュー(トークン)数が増えた際の生成のぼやけが軽減される。

▲アテンションバイアスの修正による生成の明瞭化

■Pippo : High-Resolution Multi-View Humans from a Single Image(プロジェクトページ、英語)
https://yashkant.github.io/pippo/

■Pippo(GitHub)
https://github.com/facebookresearch/pippo

CGWORLD関連情報

●NVIDIAらによるAIベースのレンダリング手法「DiffusionRenderer」発表! ジオメトリとマテリアルバッファの正確な推定によりシーンをフォトリアルにリライト

NVIDIA Research・NVIDIA Toronto AI Lab・トロント大学らが、インバースレンダリングとフォワードレンダリングの二重の問題に取り組むニューラルアプローチ「DiffusionRenderer」の研究論文を発表。
https://cgworld.jp/flashnews/202502-NVIDIA-DiffusionRenderer.html

●「NVIDIA RTX Kit」発表! GeForce RTX 50シリーズ時代のリアルなゲームキャラ作成を可能にするニューラル・レンダリング技術群

NVIDIAがゲームキャラクター作成用の新しいニューラル・レンダリング技術群「NVIDIA RTX Kit」を発表。本技術群は、ゲームアセットのAIによるレイトレース、パフォーマンスの向上したパストレーシングの利用、フォトリアルなゲームキャラクターのビジュアル生成などに活用できる。
https://cgworld.jp/flashnews/202501-NVIDIA-RTX-Kit.html

●NVIDIA、メッシュ生成モデル「Meshtron」発表! アーティストが制作するような高品質・実用的なトポロジーを生成可能

NVIDIAが機械学習アルゴリズムを用いた3Dモデルのメッシュ生成モデル「Meshtron」を発表。Meshtronは入力されたポイントクラウドデータから、アーティストが制作するような整理されたトポロジーを持つ3Dメッシュを生成する。1,024レベルの座標解像度・最大64K面のメッシュの生成に対応する、新しい自己回帰モデルとなる。
https://cgworld.jp/flashnews/202412-NVIDIA-Meshtron.html