VTuberの第一人者として長らく業界を牽引してきた、Kizuna AI(キズナアイ)。無期限のスリープ(活動休止)前最後のライブとなった“hello, world 2022”は現段階のVTuberライブとして最高クラスの技術力をもって華やかに演出された。Kizuna AIを支えてきた中核メンバーと共に、本ライブをふり返る

※本記事はCGWORLD285号(2022年5月号)の記事を一部再編集したものです

記事の目次
    「Kizuna AI The Last Live “hello, world 2022”」
    YouTubeにてアーカイブ配信中
    会期:2022年2月26日(土)
    チケット:無料
    配信プラットフォーム:Horizon Venues、bilibili、U-NEXT、YouTube
    5th.kizunaai.com/hw2022

    パイオニアが展開する空前絶後のライブ体験

    バーチャルYouTuberの草分け、キズナアイの活動休止が伝えられたのは昨年12月のことだ。「さらなるアップデートのためにスリープに入ることになり、ひとつの区切りとして全社を挙げて開催したのが先日のラストライブです」と語るのはKizuna AI株式会社(以下、KA Inc.)のプロデューサー・芳賀仁志氏だ。いくつかのコンセプトの中でも独創的なのが「三十三間堂」のイメージだ。「デジタルキャラクターの『モデル』は仏像と通じるものがあると感じていて、仏像をつくる人とモデルをつくる人のメンタルは近いのではないかと。そこから発想を広げて三十三間堂に思い至り、バーチャルで活動する方々1,000人に参加してもらえたらすごいライブになると考えました」(芳賀氏)。

    左上から、音楽/企画/プロデューサー・芳賀仁志氏、テクニカルディレクター・肥田野暢也氏、アートディレクター/3DCG担当・Eske Yoshinob氏、ラインプロデューサー/YouTubeディレクター・おかぴー氏(以上、Kizuna AI株式会社

    同チームが最も力を発揮するバーチャルライブパフォーマンスにおいてリアルタイム性はこの上なく重要なファクターであり、出演者1,000人ともなると非常に大きな挑戦となった。「これまでのコンテンツ開発の蓄積で、ライティング・シェーダ・ステージ等々を一貫して内製できる体制を築いてきました。それにより、われわれだからこそできるライブを完成させられたと思います」(テクニカルディレクター・肥田野暢也氏)。また、アートディレクター兼3DCG担当として参加したEske Yoshinob氏は「これまでの課題も今ならクリアできると、技術・表現面の挑戦を盛り込みました。集大成と言えるライブになったと思います」と自身がプロジェクトに参加した4年間をふり返った。さらにラインプロデューサー兼ドローンカメラを担当したおかぴー氏は「ダンサーやひな壇の出演者の方々、応援してくださったファンの方々、いろいろな人に支えられて活動してきた5年間だったと実感できるライブになりました」と熱く語る。

    ジャンルのパイオニアとしてひとつの金字塔を打ち立てたライブはいかにしてつくり上げられたのか。詳しくみていこう。

    <1>最高のライブ体験を生み出すための設計と施策

    万感の思いを込めたコンセプトとライブ感にこだわったカメラ

    プロジェクトの集大成として企画されたこのライブには、プロデューサー・芳賀氏の非常に強い思いが込められている。「本当にできる限りたくさんの人に観てもらいたい、記憶に残るライブをつくりたい、という思いが出発点になっています。そして関わった全てのスタッフにとっても誇りとなるようなライブ、これはゴールじゃなく次への希望をつなぐライブであるということを伝えたいと思いながら、企画を組み立てていきました」(芳賀氏)。こうして完成した約90分のライブは、SNS上では『号泣した』といった声も投稿されるなど世界中のファンを熱狂させた。

    集大成のライブとして完成度を高めるためにはグラフィック面での強化(後述)のみならず、ライブ感を引き出すカメラワークの追求も欠かせない。バーチャルカメラを用いた際の“手付けモーションっぽさ”からの脱却が課題となったが、試行錯誤の末にたどり着いたのは、カメラを操る側の身体性だ。「いかにして『ライブの』カメラになるのか、撮影監督を務めたCreative Collective FATIMAを主宰する中川義和氏やMoment Tokyoの延松健司氏を中心とした撮影チームで議論を重ねていった中で、筋肉の大事さに至りました。実写撮影では、すごく重たいカメラを筋骨隆々のカメラマンがスタビライザーを背負って撮っているのを見かけます。そういう筋肉に支えられたカメラワークが生々しさ、単なるバーチャルカメラにないリアルさを生むのではないかと考えました」(芳賀氏)。この考えを基に、バーチャルカメラには金属パーツによる重量のあるカメラリグが組まれた。ほか、三脚に据えたカメラではフォーカス情報もリアルタイムにトラッキング。さらに、ドローンカメラにより大胆な視点・動きをライブに組み込んでいる。「エフェクトやライティングだけでなく、カメラワークでもダイナミックさを演出することができました」(肥田野氏)。


    ドローンカメラはPlayStation 4のコントローラで操作し、速度は三段階に可変、加えてバーの押し込み具合で速度調整できるよう設計されている。「当初、三段階のうち一番遅い設定が『遅すぎる』ということで、低速と中速の中程の速度を低速に再設定してもらうなど、臨機応変に開発を進めました」(おかぴー氏)。ドローンカメラの操作には習熟度が如実に表れ、どういう画を撮りたいかやライブ経験回数などで職人芸的な差が出てくるという。おかぴー氏も「触り始めたその日はとてもまともなものが撮れず悔しさを感じましたし、『バーチャルドローンカメラマン』といった職にもなるのではないかとみんなで盛り上がりました。今後も習熟していきたいと思います」と語っていた。

    活動休止前のラストライブにふさわしいコンセプト

    1,000人もの出演者のイメージソースとなった「三十三間堂」と共に掲げられたコンセプトは、「Majestic(荘厳な)」「Dramatic(劇的な)」「Futuristic(未来的な)」の3つ。「Majesticでは彼女が切り拓いてきた道、またその先にある文化的な発展を、Dramaticでは何かが生まれてくるような、母なる樹木といったイメージを、FuturisticではバーチャルYouTuberという未来的な存在感を意識しつつ、これらをライブ演出やステージに組み込んでいきました」(芳賀氏)。画像はライブ中それぞれのコンセプトを象徴するような瞬間を切り出したもの

    三十三間堂
    • Majestic
    • Dramatic
    Futuristc

    バーチャルカメラによる臨場感あふれるカメラワーク

    ライブ感のあるカメラワークを実現するために、実際のライブでカメラ経験のある専任のカメラマンをアサインし、バーチャルカメラに実写カメラを意識したサイズ感・重量感をもたせた特別なカメラリグを組んで臨んだ。これにより、【上の2画像】のような臨場感のあるカメラワークを実現している
    • このほか、三脚に据え置いた定点カメラ、ゲーム機のコントローラで操作するドローンカメラの3種類が用意された。定点カメラはフォーカスの情報もトラッキングしている
    • 「タイミングがずれたり構図がセンターからずれたり、フォーカスが甘かったりといった画でも、なるべく活かしています【画像】。綺麗な部分だけ抽出するというよりは、全体として音楽ライブとして気持ちの良さが出るよう意識しています」(おかぴー氏)

    <2>リアルタイム性と品質を兼ね備えたキャラクター

    挑戦と克服、集大成としてのキャラクター制作

    キャラクター制作の起点として用意されたKA Inc.謹製の「マスターモデル」は、コントローラと多様な調整機能により、読み込みからプロポーション編集・ラフにポーズを確認するまで約10分で到達可能。「プロポーション調整時には、移動・回転・スケールへのリミットは設けていません。二頭身キャラなど極端なデフォルメがかかったデザインにも対応できるようにしています」(Eske氏)。現在は右に掲載したようなメッシュが登録されているが、例えば筋肉質な男性キャラクターを制作することになればそれ用のベースメッシュを作成、マスターモデルとして登録して利用できる。マスターモデルの管理やMaya用の各種便利ツールを呼び出すためのAi Toolsは、Eske氏の合流以降長い時間をかけて整備されてきた。また、今回お披露目となった内製シェーダ「AS1」も同じように成熟を重ねてきたもので、イラスト風表現とPBRを織り交ぜたルックなど様々な表現をリアルタイムに描画する。通常、透過表現は負荷が大きく、リアルタイム性を確保するならできるだけ避けたいところだ。今回は各種のトリッキーな手法(つまり実際には透過しているわけではなくフェイク表現)により、目的の見た目とリアルタイム性を両立させた。


    リアルタイム性を維持せずクオリティを出すというのであれば、1フレーム単位でクリティを追求するプリレンダリング/コンポジットという制作フローと同じ土俵になってしまう。もちろんライブ表現には対応できず、KA Inc.の目指す方向性として適さない。「どんなにクオリティが高まるアイデアであっても、リアルタイム性を損ねるのであれば考え直す。そういうことを強く意識しながら制作しています」(肥田野氏)。そうしたこだわりが、即応性のあるコミュニケーションが求められるバーチャルライブでのKA Inc.の強みとなっているにちがいない。プログラマー志望だった肥田野氏はこれまで徐々にテクニカルアーティスト分野へ作業領域を拡げ、今回のライブではテクニカルディレクターを務めた。「今回参加された方々の多くがそうだったのですが、担当領域を広げていける人、メイン分野の前後も気にかけてくれる人がもっと集まればもっとすごいことができるなと思います。技術の発達と共に少人数で高クオリティのものがつくれるようになったからこそ、広い領域をカバーできる人が集まったときの強さも増していると思います」(肥田野氏)。

    「キズナアイというプロジェクトもこれで終わりではないですし、バーチャルエンターテインメントをこれからもつくり続けていきます。なので、チーム制作だからこそいろいろなこと、大きなことができる、そういう環境に魅力を感じてくれるクリエイターはいつでもウェルカムです」(芳賀氏)。

    効率良くキャラクターを量産できる「マスターモデル」

    内製キャラクターの標準フォーマットとなる素体「マスターモデル」。キャラクターデザインに応じたプロポーション調整が容易になるように設計されたメッシュ、コントローラ、および調整時のバランス/ジョイント位置自動調整機能等が組み込まれている

    • プロポーション調整前の例
    • プロポーション調整後の例
    コントローラの操作でデザインに合ったプロポーションに調整すると、スキニングやジョイントも自動で更新され、簡単なポージングも可能
    さらに肘・膝を曲げた時に前腕や下腿が長すぎるといったことが起きないようになっている【上の2画像】。「コントローラでポロポーションを変えると、諸々のジョイントに最適化処理が走ります。ウェイトも更新されるため、ざっとデザインに合わせみて仮に動かせる最低限の状態まで10分ほどでもっていけます」(Eske氏)また、膝の割りとジョイントの位置関係など、関節位置とトポロジーの関係性も保たれるようになっているため、ウェイト移植も比較的良好な結果が得られるようになっている

    自然な変形を支えるデフォーメーションシステム

    これまでライブでの成果をふまえ「避けるべき」とされてきた表現について、今回のライブではそれらへの解決策が盛り込まれた。キャラクター表現においては「より自然な変形」のための各種システムが構築され、冒頭のドレス姿をはじめライブ中ではそれらの複合的な成果を確認できる

    四肢に捻りが加わった際、人体の構造に従って根元付近の回転を避けられるよう「Twist Bone」を設置。これにより、腕を大きく捻った際の肩~上腕のデフォーメーションが自然になっている
    • 特定のジョイントに対して、一定の割合で回転するジョイントを作成する「Half Rotater」。これにより、肘・膝関節では回転角を抑えたウェイト配分を実現、形状破綻を抑制している
    • 補助骨を設けることでデフォーム時の肉感を維持。補助骨はMaya上ではドリブンキーで制御され、例えば腕を上げた際の肩や衣装の形状、シルエット維持に貢献する
    ドリブンキーOFF
    ドリブンキーON。Unity上でもMayaでの制御を再現し、ランタイムでも機能させている

    キャラクターモデル制作をサポートする「Ai Tools」

    マスターモデルを運用するためのMaya用内製ツール

    • 「挑戦と克服、集大成としてのキャラクター制作」で紹介したMaya上で動作する各種独自ツール
    • ウェイト・マテリアル・フェイシャルに関する機能
    マスターモデル(マスターファイル)の読み込みやメタデータ登録なども担当する
    MayaからFBXを出力する際には、シーン内のHalfRotaterやDrivenKey情報を自動検出しjsonファイルとして書き出す。これをUnity側でパースすることにより、必要な構造が再構築されるようになっている。「エンジニアさんに指示を出しながら組み上げていくのはパーツ数的に不可能に近いのですが、このしくみにより一貫したワークフローを実現できました」(Eske氏)。書き出されるjsonファイルは5種だがこれらは長い時間をかけて徐々に増えてきたもので、今回のライブ制作開始時点で十分な機能を満たしたとして導入に踏み切ったという

    PBRとセル調に両方対応する内製シェーダ「AS1」

    キャラクター表現を拡張するために開発されたUnity用独自シェーダ。「開発自体はかなり前から着手されており、いよいよ全面的に使うときがきたかなと考え、公の場でのお披露目となりました」(Eske氏)

    • 特徴的な機能として「PBRとセル調ルックのブレンド」「リム表現」「透過光表現」が挙げられる
    PBRパラメータとセル表現パラメータを備え、マスクで両者を織り交ぜる。「ドレスはこれをかなり意識し、全体は手描き風に描画しつつ、キラッとした部分はPBRの質感を出してリッチな感じを高めました」(Eske氏)
    • シルエットを際立たせるリムは独自に実装、照明が弱まっても反応する。肌の通常色とリムとの境界には赤い筋のような暖色を発色させる設定をもたせ、血の通ったキャラクターの実在感を高めている
    • 透過光表現では、逆光下で衣類が透けて身体がぼんやり浮かびあがる様子を表現。袖や手首の飾り・髪などが身体部分を残してうっすらと透けて発光する。「リアルタイムを厳守するためにかなりトリッキーな実装になっていますが、キャラクターが一人であれば100fps程度、2~3人でも60fps程度で描画されます」(肥田野氏)

    <3>ライブを華やかに彩る様々な舞台装置

    多様なコンセプトを込めたステージとひな壇

    ライブ全体のコンセプトを受けて、Eske氏がステージのコンセプト立案・デザイン・モデリング等々を統括、一貫して内製で完結している。「三十三間堂の観音像1,000体のように、というコンセプトが出発点でしたが、芳賀のイメージする世界観を聞いては絵に反映させるということをくり返しながら進めました。まずは客席のイメージで組んでみたのですが、『観客ではなく出演者なのであり、ステージ上に同じ向きでいる必要がある』と。そこで、ではそのためにどんなステージが必要かと頭を悩ませました」(Eske氏)。まずアタリをつけて組んでみたステージコンセプトは、仮のモデルをざっと配置してみたところ1~200体しか乗らず、大きくしてみてもやはりスペースが足りず、と段階的に大型化。最終的にあの巨大ひな壇が完成した。「ひな壇自体がアイちゃんの『ぴょこぴょこ』になっていて、中央の舞台がカチューシャとしてつながっています。そのためひな壇を大きくするたびに中央舞台を含めたステージ全体が大きくなり、結局今の大きさになりました」(Eske氏)。



    ひな壇の間には御神木が鎮座し、またライブ開始時にはステージへと続く階段も据えられている。それぞれ「母なる生命の木」「キズナアイの歩みから連なる文化の発展」といった象徴的な意味合いが込められている。裾の長いドレスは階段との干渉を避けられないが、これまでであれば裾の短いデザインにするところを今回はクリアすべき課題として挑戦。使用したのはUnity Asset Storeで注目の最新クロスシミュレーションツール・Magica Clothだ。「プラグインがリリースされてからこれまで使い込んできた経験から、こうすればいけそうだという落としどころを見つけることができました」(肥田野氏)。

    ひな壇はその大きさのみならず、1,000人を超えるVTuberのステージとしても目を引く。モデルデータの受領から管理、配置まで自動化されており、「モデルデータだけで数十GBになり、これを手作業でやるとそれだけで何日もかかってしまうので、まず自動化するしくみの検証からスタートしました」(肥田野氏)。後述するように、ひな壇上はカメラを決めた上でプリレンダリング。この際のカメラはUnity上でのスイッチングではなく、まずPremiere Pro上で編集しXMLで出力、Unity上でタイムラインを再構築するというフローでつくられている。

    生命感と未来感を表現するステージ

    • 初期のデザイン案。中央のステージを取り囲むような配置が想定されている。人とステージとのサイズ対比はまだそれほど大きくはない
    • 改訂されたデザイン案。なによりもひな壇が目を引く。御神木の存在感が強調され、周囲には水や植物も。三十三間堂の正式名称「蓮華王院」に由来する蓮や蓮華のモチーフが散りばめられている。中央の人影と比べると、いかにステージが大きくなったかが実感できる
    実際のステージ
    • せり上がり
    • 大樹を背負うアングルからのひとコマ
    ライブ冒頭に登場する階段。ドレスとの干渉にはMagica ClothのコライダのGlobal機能を使用。ちなみに各段は収納時にはぴょこぴょこ風の形状に折り畳まれる

    公募により駆けつけた1,000体の共演者

    1,000人を超えるVTuberたちがひな壇からライブを盛り上げる。「例えばゲーム開発での群衆シミュレーションを考えると、同じモデル仕様・マテリアル仕様などリソースを最適化することでfpsをかせぎますが、今回は公募でモデル仕様が全て異なり、そうした対策もとれませんでした」(肥田野氏)。また、最適化をかけることでそれぞれの特徴を損ねるわけにもいかない。この条件下でリアルタイムなライブを表現するために、必要に応じてカメラワークを事前収録し、ひな壇の出演者のみプリレンダリング。それを本番ではUnity上で同期を取って組み合わせることで最終的なライブ映像としている。ちなみにレンダリング時はマシンパワーにものを言わせて2fpsほどとのこと

    • ひな壇の空舞台
    • プリレンダリングによる1,000人超えのVTuberを配置した状態
    • 曲中でのひな壇の様子
    • 正面以外の画角も破綻なく描画できる

    リアルタイム表現へのこだわり

    ひな壇上の出演者に関してはプリレンダリングを組み合わせた手法となっているが、それ以外に関してはVJを含めリアルタイムでのライブとなっている。「VJ映像も納品してもらうのではなく、スタジオ内にVJ機材を持ち込んでもらってその場でプレイしてもらっています」(肥田野氏)。これはワークフローの軽量化はもちろんのこと、VJを担当したREZもまたリアルタイム性を重視するチームであり、ライブのナマ感の向上に貢献した。ステージ上のライティングやエフェクトはギリギリまで変更が加えられたため、それに合わせた色味調整なども随時行われたという。なお今回ライブ制作に用いられた機材はゲーミングPCのGALLERIA ZA9C-R39で、Corei9-11900K、メモリ128GB、GeForce RTX 3090と機材手配時点で市場で入手可能な最高スペックのものを2台冗長化して使用。1,000人のレンダリングに用いられたのもこのマシンだ

    新開発のボリュームライトシェーダ

    かねてから開発されてきたAS1とは別に、今回新たに開発されたのが「ボリュームライトシェーダ」だ。被写体が強い光源を遮るときに長く伸びる影・光の筋を表現するもので、「いわゆるゴッドレイとも呼ばれリッチ感を引き上げるのにお馴染みの表現ですが、レガシーRPで複数本同時に描画できたのは頑張ったかなと思います」(肥田野氏)
    天井やステージのスポットライトから照射されるボリュームライトの様子

    TEXT_ks
    EDIT_藤井紀明 / Noriaki Fujii(CGWORLD)、山田桃子 / Momoko Yamada