大連理工大学香港中文大学快手の研究チームは2月14日(金)、動画生成AIフレームワーク「CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation」の査読前論文(プレプリント)を公開した。Text-to-Videoの動画生成において、ユーザーが3D空間内のオブジェクトとカメラを操作して、高品質なシネマティック動画を生成できる技術となる。

CineMasterによる動画生成のながれ

CineMasterは、シーン内のオブジェクトの正確な配置と3D空間におけるオブジェクトとカメラの柔軟な操作、そしてレンダリングされたフレームに対する直感的なレイアウト制御などが行えるフレームワーク。

CineMasterは2ステージで動作する。第1ステージでは3D空間内にオブジェクトのバウンディングボックスを配置し、カメラの軌道を設定してユーザーが3D空間を直感的に操作することで、深度(デプス)マップやカメラの軌跡、オブジェクトのクラスラベルといった具体的なシーンの3D情報をコントロール信号として抽出する。


第2ステージでは、抽出したコントロール信号をText-to-Videoの動画生成に用いる拡散(diffusion)モデルにガイドとして入力する。これにより、3D空間表現としてユーザーが意図した動画を生成する。

▲左列は第1ステージ、3D空間内でのオブジェクトとカメラのセットアップ。右列は第2ステージで、深度マップに従ってコンテンツの合成を行う
▲2ステージの構成概要。第1ステージで生成されたコントロールシグナル(深度マップ、カメラの軌跡、オブジェクトのクラスラベル)が、第2ステージの拡散モデルにガイドとして入力されることで、意図通りの映像コンテンツが生成できる

なお研究チームは、CineMasterの動画生成に不足する3Dオブジェクトのモーションとカメラポーズのアノテーションを持つ実データセットを補うため、大規模な動画データから3Dバウンディングボックスとカメラの軌道データを抽出する自動アノテーションパイプラインを構築。これにより、従来の手法と比較して、より精密かつ多様な動画生成が可能になったとしている。

▲オブジェクトのモーションコントロール例。火の玉と熊の位置関係が正確に動画に反映されている
▲カメラのモーションコントロール例
▲オブジェクトのモーションコントロール例。人物の周囲を鳥が回り込む際に破綻が生じない

■CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation(プロジェクトページ、英語)
https://cinemaster-dev.github.io/

CGWORLD関連情報

●TiktokのByteDanceらが動画生成AI「Goku」を発表! 動画広告作成に特化した「Goku+」も

香港大学の研究チームとByteDanceが動画生成AI「Goku」の論文を発表。GitHubのリポジトリやサンプル動画を公開した。高速推論を実現する最先端のアルゴリズム「Rectified Flow Transformers」をベースにしたモデルで、テキストや画像からの動画生成、テキストからの画像生成を行える。
https://cgworld.jp/flashnews/202502-ByteDance-Goku.html

●Adobeの生成AI「Firefly」で動画の生成が可能に! クレジット消費方式、フルHD・5秒、カメラコントロールあり

Adobeが動画生成AIモデル「Firefly Video Model」をAdobe Firefly Webでベータ公開。他社動画生成AIモデルと同様のクレジット消費制で、各種Creative Cloudプランのユーザーには毎月クレジットが付与されるほか、月額課金プランも用意される。
https://cgworld.jp/flashnews/202502-Adobe-FireflyVideo.html

●日本初の日本語対応の動画生成AI基盤モデル「AIdeaLab VideoJP」無償公開! 商用利用可、ライセンスに考慮しゼロから動画学習

AIdeaLabが動画生成AI基盤モデル「AIdeaLab VideoJP」をHugging Faceで公開。日本語および英語のプロンプト文から動画を生成でき、生成動画の商用利用も可能。ライセンスはApache-2.0。
https://cgworld.jp/flashnews/202502-AIdeaLab-VideoJP.html