OpenAIの動画生成AI「Sora」発表！　破綻の少ない高品質な動画生成能力に多業界が注目

テキスト生成AIのChatGPTや画像生成AIのDALL·Eの開発で知られるOpenAIは米国時間2月15日（木）、テキストから最大60秒の動画を生成できる「Text-to-Video」モデルの動画生成AI「Sora（ソラ）」を発表した。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

従来の動画生成AIの表現力を大きく上回る、整合性の取れた動画品質に対して、多数の専門家がSNSなどで驚嘆のコメントを発表している。

OpenAIは現在、Soraの一般公開の時期については明らかにしていないが、生成AIの一般利用に際しては悪用を懸念する声も多いことから、下記のように発言している。

We’ll be taking several important safety steps ahead of making Sora available in OpenAI’s products. We are working with red teamers — domain experts in areas like misinformation, hateful content, and bias — who will be adversarially testing the model.

SoraをOpenAIの製品で利用できるようにする前に、いくつかの重要な安全対策を講じる予定です。私たちはレッドチーマー（誤報、憎悪的なコンテンツ、偏見などの分野の専門家）と協力して、モデルを敵対的にテストします。

（DeepLによる自動翻訳）

また、デジタルコンテンツの信憑性を担保するため、Soraを含むOpenAI製品で生成したメディアに対して、オープン規格のC2PAメタデータを埋め込む予定があるほか、DALL·E 3に用いている安全手法をSoraにも適用できる、としている。

なお、OpenAIはSora発表にあたり、テクニカルレポートを公開。そのレポート内には、DALL·E 2およびDALL·E 3で生成した画像からも動画を生成できるという記述がある。

Sora is capable of generating videos provided an image and prompt as input. Below we show example videos generated based on DALL·E 231 and DALL·E 330 images.

Sora は画像とプロンプトを入力として動画を生成することができます。以下に、DALL-E 2とDALL-E 3の画像から生成した動画の例を示します。

（DeepLによる自動翻訳）

OpenAIはSoraの発表に際し、下記のように述べている。

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.

Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えている。

（DeepLによる自動翻訳）

※AGI：Artificial General Intelligence、汎用人工知能