テキスト生成AIのChatGPTや画像生成AIのDALL·Eの開発で知られるOpenAIは米国時間2月15日(木)、テキストから最大60秒の動画を生成できる「Text-to-Video」モデルの動画生成AI「Sora(ソラ)」を発表した。
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
従来の動画生成AIの表現力を大きく上回る、整合性の取れた動画品質に対して、多数の専門家がSNSなどで驚嘆のコメントを発表している。
OpenAIは現在、Soraの一般公開の時期については明らかにしていないが、生成AIの一般利用に際しては悪用を懸念する声も多いことから、下記のように発言している。
We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who will be adversarially testing the model.
SoraをOpenAIの製品で利用できるようにする前に、いくつかの重要な安全対策を講じる予定です。私たちはレッドチーマー(誤報、憎悪的なコンテンツ、偏見などの分野の専門家)と協力して、モデルを敵対的にテストします。
(DeepLによる自動翻訳)
また、デジタルコンテンツの信憑性を担保するため、Soraを含むOpenAI製品で生成したメディアに対して、オープン規格のC2PAメタデータを埋め込む予定があるほか、DALL·E 3に用いている安全手法をSoraにも適用できる、としている。
なお、OpenAIはSora発表にあたり、テクニカルレポートを公開。そのレポート内には、DALL·E 2およびDALL·E 3で生成した画像からも動画を生成できるという記述がある。
Sora is capable of generating videos provided an image and prompt as input. Below we show example videos generated based on DALL·E 231 and DALL·E 330 images.
Sora は画像とプロンプトを入力として動画を生成することができます。以下に、DALL-E 2とDALL-E 3の画像から生成した動画の例を示します。
(DeepLによる自動翻訳)
OpenAIはSoraの発表に際し、下記のように述べている。
Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.
Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えている。
(DeepLによる自動翻訳)