Stability AI社オックスフォード大学カリフォルニア大学バークレー校の研究チームは3月19日(水)、動画生成AIモデル「Stable Virtual Camera」を公開した。1枚から32枚までの入力画像から、最大1,000フレームにわたるマルチビュー映像を生成できる。オープンソース(非営利ライセンス)で提供され、Hugging Faceではデモが、GitHubではソースが公開されている。

Stable Virtual Cameraでは、360°回転や∞(レムニスカート)型、螺旋状(スパイラル)、ドリーズーム(前後に近づいたり遠ざかったりする動き)など14種類以上の動きを利用して、ユーザーがカメラ軌道を自由に指定でき、最低1枚(最大32枚)の入力画像から、最大1,000フレームにわたる動画生成が可能。アスペクト比は正方形(1:1)、縦長(9:16)、横長(16:9)などを用途に合わせて設定できる。


技術面では多視点拡散モデル(multi-view diffusion model)、新規ビュー合成(Novel View Synthesis:NVS、画像から新たなビューを生成する技術)、プロシージャル2パスサンプリング(基準となる映像を生成した後、ディテールをチャンクごとに補完する、2段階の生成プロセス)という3つのポイントがある。

▲ユーザーの指定に従ってカメラから新しいビューを生成。単純な360°軌道のビュー(上)、長いカメラ軌道をもつ2つのビュー(中)、大きな空間範囲のある9つのビュー(下)
▲360°軌道、らせん状、ズームアウト、ドリーズーム、ユーザーによるカスタム軌道まで、多様なカメラ軌道に沿って、フォトリアルななビューを生成する
▲プロシージャルな2パスサンプリングを使用して任意の数の入力ビューとターゲットビューを処理する

なお、本モデルを最新のNVSベンチマークで評価した結果、 他の手法(ViewCrafterやCAT3D)と比較して、視覚的な品質や精度(LPIPS・PSNR)で高い性能を示したという。

■Introducing Stable Virtual Camera: Multi-View Video Generation with 3D Camera Control(Stability AI NEWS、英語)
https://stability.ai/news/introducing-stable-virtual-camera-multi-view-video-generation-with-3d-camera-control

■STABLE VIRTUAL CAMERA: Generative View Synthesis with Diffusion Models(論文PDF、英語)
https://static1.squarespace.com/static/6213c340453c3f502425776e/t/67d9989ba4ff4454cae891e0/1742313633904/stable-virtual-camera.pdf

■stabilityai / stable-virtual-camera(Hugging Face)
https://huggingface.co/stabilityai/stable-virtual-camera

■Stable Virtual Camera: Generative View Synthesis with Diffusion Models(GitHub)
https://github.com/Stability-AI/stable-virtual-camera

CGWORLD関連情報

●Luma AIが生成AI向けの新しい事前学習アルゴリズム「Inductive Moment Matching(IMM)」を発表! 拡散モデルなど既存手法よりも優れたサンプル品質、10倍以上向上したサンプリング効率

Luma AIが生成AI向けの新しい事前学習(Pre-training)アルゴリズム「Inductive Moment Matching(IMM)」を発表。IMMは、従来の手法である自動回帰モデル(Autoregressive model)や拡散モデル(Diffusion model)、一貫性モデル(Consistency model)などと比較して、学習済みの大規模モデルの性能をより引き出せるアルゴリズムだという。オープンソースで公開されている。
https://cgworld.jp/flashnews/202503-Luma-IMM.html

●Lumaの動画生成AI「Dream Machine」の「Ray2」アップデート! キーフレーム、動画の拡張、ループ動画作成に対応、低コスト版の「Ray2 Flash」もリリース

Luma AIが動画生成AI「Dream Machine」で利用可能な動画生成モデル「Ray2」のアップデートを発表し、Dream Machine内で利用可能にした。新しいRay2はキーフレーム、動画の拡張、ループ動画作成に対応する。また、Ray2よりも低コストかつ高速生成が可能な廉価モデル「Ray2 Flash」もリリースし、同じく利用可能にした。
https://cgworld.jp/flashnews/202503-Luma-Ray2-update.html

●Artificial AnalysisがGoogle Veo 2、Sora、Kling 1.5 Proなどの生成品質をベンチマーク! 結果はVeo 2に軍配

Artificial Analysisが主要動画生成AIの生成品質のベンチマーク結果(Arena Elo)をSNSで公開。5種類のプロンプトを用いて生成された動画の品質比較において、「Google Veo 2」が最も高いレーティングを獲得し、快手「Kling 1.5 Pro」(クリング)とOpenAI「Sora」がそれに続く結果となった。
https://cgworld.jp/flashnews/202503-ArtificialAnalysis.html