マルチモーダル生成AIモデル「Wan2.6」リリース！ 1080p15秒、リファレンスキャラクターのインポート、マルチショット生成によるストーリーの自動構築など

中国・アリババグループの研究開発チームTongyi Labは12月16日（火）、テキスト・画像・音声入力を統合し、リアルな画像と動画を生成するマルチモーダル生成AIモデル「Wan2.6」をリリースした。特定のリファレンスキャラクターを異なるシーンへ一貫性を保ったまま配役する「Starring」機能、単純な指示から複数のカットで構成される物語を自動構築する「マルチショット・ナラティブ」機能、ネイティブレベルでのA/V同期による自然な対話シーン、1080p、緻密なライティング制御などの特徴を備える。Wan2.6は公式プラットフォームやサードパーティ製プラットフォーム、APIから利用可能。

Introducing Wan2.6 - A native multimodal model that turns your ideas into breathtaking videos and images!
・Starring: Cast characters from reference videos into new scenes. Support human or human-like figures, enabling complex multi-person and human-object interactions with appearance and voice consistency.
・Intelligent Multi-shot Narrative: Turn simple prompts into auto-storyboarded, multi-shot videos. Maintain visual consistency and upgrade storytelling from single shots to rich narratives.
・Native A/V Sync: Generate multi-speaker dialogue with natural lip-sync and studio-quality audio. It doesn’t just look real - it sounds real.
・Cinematic Quality: 15s 1080p HD generation with comprehensive upgrades to instruction adherence, motion physics, and aesthetic control.
・Advanced Image Synthesis and Editing: Deliver cinematic photorealism with precise control over lens and lighting. Support multi-image referencing for commercial-grade consistency and faithful aesthetic transfer.
・Storytelling with Structure: Generate interleaved texts and images powered by real-world knowledge and reasoning capabilities, enabling hierarchical and structured visual narratives.

Wan2.6 発表：あなたのアイデアを、息を呑むような映像と画像へ変えるネイティブ・マルチモーダルモデル
・Starring機能：参照動画からキャラクターを抽出し、新しいシーンへと登場させることが可能です。人間や人型キャラクターに対応しており、外見や音声の一貫性を保ちながら、複雑な多人数描写や人間と物体の相互作用を自然に描き出します。
・インテリジェントマルチショットナラティブ：単純なプロンプトから、自動的に絵コンテ化（ストーリーボード化）されたマルチショットの映像を生成します。視覚的な一貫性を維持しつつ、単一ショットの描写から、重層的で豊かな物語へと映像表現を引き上げます。
・ネイティブA/V同期：自然なリップシンクとスタジオ品質のオーディオを備えた、複数話者による対話シーンを生成します。それは単に「本物のように見える」だけでなく、「本物のように聞こえる」体験を提供します。
・シネマティッククオリティ：指示への忠実度、運動物理、および審美的なコントロールを全面的にアップグレード。最大15秒間の1080p HD映像生成において、映画レベルの品質を実現しました。
・高度な画像合成と編集：レンズ設定やライティングを精密に制御し、映画のようなフォトリアリズムを提供します。複数画像の参照をサポートすることで、商業利用に耐えうる一貫性と、忠実なスタイル転送（aesthetic transfer）を可能にしています。
・構造化されたストーリーテリング：現実世界の知識と推論能力を活用し、テキストと画像を織り交ぜたコンテンツを生成します。これにより、階層的で構造化された視覚的ナラティブの構築が可能になります。

▲Starring機能

▲Starring機能の実践解説

▲マルチショット生成によるストーリーテリングと、シネマティックなショットコントロール

▲ネイティブ・マルチショット生成機能の実践解説

▲画像生成機能の紹介

▲画像生成におけるスタイル変更

▲公式ワークスペースのプロンプト入力部分。1080pで15秒までの生成に対応する

▲Wan2.6の発表記念ライブ配信（日本語版）。新機能や実際の活用事例が詳しく紹介されている

■Wan公式ワークスペース
https://create.wan.video/explore

■Introducing Wan 2.6（公式ブログ、英語）
https://wan.video/blog/wan2.6-introduction

■API（Alibaba Cloud Model Studio）
https://modelstudio.alibabacloud.com/

プランと価格

Wan2.6の公式ワークスペースでは、無料のFreeプランと有料のProプラン、Premiumプランが用意されている。Proプランは月額5ドル（約780円）で、透かしなしの画像・動画のダウンロードや商業利用が可能となる。また、毎月300クレジットが付与され、最大60本の動画生成を高速化できる。なお、最上位のPremiumプランには新機能への早期アクセス権が付帯する。

■Wan AI Membership Plans
https://create.wan.video/pricing

CGWORLD関連情報

●マルチモーダル動画生成AIモデル「Kling O1」リリース！テキスト・画像・動画・特定の被写体を組み合わた入力に対応、動画生成から編集・スタイル変換まで1モデルに統合

快手がマルチモーダル動画生成AIモデル「Kling O1 動画モデル」をリリース。テキストと参照画像、既存の動画、特定の被写体（エレメント）を混在させて指示を出し、3秒から10秒までの動画を生成できる。チャットによる複雑な動画編集やスタイル変換の機能も統合。公式Webアプリでは無料・有料プラン共に利用できるほか、各種サードパーティ製プラットフォームで提供されている。
https://cgworld.jp/flashnews/01-202512-KlingO1.html

●Runwayの動画生成AIモデル「Gen-4.5」リリース！リアルな物理挙動の再現、複雑な演出指示への忠実な追従性を実現

Runwayが動画生成AIの最新基盤モデル「Gen-4.5」を発表し、有料プランのサブスクリプションユーザーに対して提供を開始した。複雑で連続的な指示を正確に理解し実行でき、リアルな物理挙動の再現も可能となった。基本解像度は1,280×720（16：9、9：16）または960×960で、4Kへのアップスケーリングが行える。まずはText to Videoが提供され、今後Image to Video、Keyframes、Video to Videoなども順次提供するとのこと。
https://cgworld.jp/flashnews/01-202512-Gen-4.5.html

●テンセント、オープンソースの動画生成AIモデル「HunyuanVideo 1.5」公開！超軽量8.3Bパラメータで14GB VRAMのGPUにデプロイ可能

テンセントのHunyuanチームがオープンソースの動画生成AIモデル「HunyuanVideo-1.5」を公開。パラメータ数83億（8.3B）の軽量モデルで最小14GBのVRAMで動作し、Text-to-VideoとImage-to-Videoの生成に対応する。ライセンスは独自のTENCENT HUNYUAN COMMUNITY LICENSEが適用され、原則として商用利用可能だが、欧州連合（EU）・イギリス韓国は適用外（事実上の利用不可）となっている。
https://cgworld.jp/flashnews/01-202512-HunyuanVideo15.html