アメリカWorld Labs社は12月3日(火)、画像1枚から3Dシーンを生成し、ユーザーが操作できる「世界モデル」(Large World Models、略称LWMs)AI技術の初期プレビューを同社サイト内で公開した。Webブラウザ上でリアルタイムレンダリングされたデモシーン内をキーボードとマウスで探索できるようになっている。同社は現在、2025年の製品リリースを目指して開発を進めているという。
World Labs aims to address the challenges many creators face with existing genAI models: a lack of control and consistency. Given an input image, our system estimates 3D geometry, fills in unseen parts of the scene, invents new content so you can turn around, and generalizes to a… pic.twitter.com/3SaTugmGRX
— World Labs (@theworldlabs) December 2, 2024
World Labsは、多くのクリエイターが既存の生成AIモデルで直面している課題である「コントロールと一貫性の欠如」の解決を目指しています。われわれのシステムは、入力画像から3Dジオメトリを推定し、シーンの見えない部分を埋め、振り向くことができるように新しいコンテンツを考案し、様々なシーンタイプやアーティスティックなスタイルに適合させます。
Most generative models predict pixels. Predicting a 3D scene instead has many benefits: the scene won’t change if you look away and come back, and it obeys the basic physical rules of 3D geometry. The simplest way to visualize the 3D scene is a depth map, where each pixel is… pic.twitter.com/9sAUEgijga
— World Labs (@theworldlabs) December 2, 2024
3Dシーンはブラウザ内でリアルタイムレンダリングされ、完全なカメラコントロールができる状態になっています。ゲームのように自由なカメラ操作で探索ができますし、被写界深度やドリー、ズームなどの3Dカメラ効果のシミュレートも可能です。
ほとんどの既存の生成AIモデルはピクセルを予測しますが、われわれのシステムは3Dシーンを予測します。これには多くの利点があります。目を離してから戻ってきてもシーンは変わりませんし、3Dジオメトリの基本的な物理法則に従います。3Dシーンを視覚化する最も簡単な方法はデプス(深度)マップで、各ピクセルはカメラとの距離によって色分けされます。
We also had some fun peeking into the worlds behind a few creative masterpieces, like the neighborhood surrounding the diner in Edward Hopper’s iconic painting Nighthawks.
— World Labs (@theworldlabs) December 2, 2024
6/n pic.twitter.com/QSTDnZfkwb
一貫性のある3Dジオメトリを生成することで、ライティングや外観の変更、ジオメトリの修正、オブジェクトのシーン内への挿入など、3Dを意識した方法でシーンを操作できるようになります。
また、エドワード・ホッパーの代表的な絵画『ナイトホークス』(1942)に登場するダイナーの周辺など、クリエイティブな傑作の背後にある世界を覗き見る楽しみもありました。
World Labsの世界モデルAI技術では、1枚の画像から地面や建造物、草木などのオブジェクトを読み取り3Dジオメトリを生成し、画像外の風景を予測してシーンを生成する。
生成された3Dシーンには被写界深度やドリーズームの適用が可能なほか、3Dエフェクトとしてクリックした地点の凹凸に沿ってエフェクトを発生させる「Sonar」(超音波)、クリックした地点のみを明るく照らす「Spotlight」(スポットライト)、クリックした地点に波紋を出す「Ripple」も適用できる。
また、シーンのアニメーションエフェクトとして、草木が揺れる「Rustle」、シーン全体が波打つ「Waves」、虹色の波が画面全体を覆う「Color Wave」も用意されている。
■World Labsデモページ
https://www.worldlabs.ai/blog
CGWORLD関連情報
●Google Cloud、動画生成モデル「Veo」と画像生成モデル「Imagen 3」をビジネス向けAIプラットフォーム「Vertex AI」上で提供開始!
ビジネス向けクラウドコンピューティングサービスのGoogle Cloudは、生成AIを構築して使用するためのフルマネージド統合AI開発プラットフォーム「Vertex AI」上で、最新の動画生成モデル「Veo」と、高品質な画像生成モデル 「Imagen 3」の提供を開始した。
https://cgworld.jp/flashnews/Google-Veo-Imagen3.html
●オープンソース・時間無制限の動画生成AI「The Matrix」発表! 新技法による拡散モデル&一貫性モデルの自動回帰生成をリアルタイムに実現
アリババや香港大学、ウォータールー大学、カナダのAI研究機関Vector Insitituteのメンバーが参加する開発チームがオープンソースのリアルタイム動画生成AI「The Matrix」を発表。映画『マトリックス』にちなんで名付けられた本AIは、インタラクティブ機能を備えた、忠実性の高い720pのリアルタイム映像を無限に生成するという。
https://cgworld.jp/flashnews/AI-Matrix.html
●Runwayの動画生成AI「Gen-3 Alpha Turbo」が高度なカメラコントロール機能を搭載! カメラの移動方向と強度のを詳細に制御可能
Runway AI社が動画生成AI「Gen-3 Alpha Turbo」内に高度なカメラコントロール機能を追加。無料プランユーザーでも利用できる。
https://cgworld.jp/flashnews/202411-Gen3AlphaTurbo-Camera.html