>   >  リアルとバーチャルの境界を技術で超える「バーチャルキャラクターをリアルイベントへ召喚する技術」~CEDEC 2018レポート(4)
リアルとバーチャルの境界を技術で超える「バーチャルキャラクターをリアルイベントへ召喚する技術」~CEDEC 2018レポート(4)

リアルとバーチャルの境界を技術で超える「バーチャルキャラクターをリアルイベントへ召喚する技術」~CEDEC 2018レポート(4)

8月22日(水)~24日(金)の3日間、ゲームを中心とするコンピュータエンターテインメント開発における国内最大のカンファレンスCEDEC 2018がパシフィコ横浜で行われた。本レポートでは、「1万人規模音楽ライブからトークイベントまで、バーチャルキャラクターをリアルイベントへ召喚する技術」と題して、バーチャルキャラクターを使用したイベント構築について俯瞰的に説明された株式会社バーチャルキャストの講演の様子をお伝えする。

関連記事
プログラマーこそHoudiniを触るべき!~プログラマー目線での魅力が熱く語られたHoudiniトーーク~CEDEC 2018レポート(1)
ノードベースのVFX制作は怖くない! 日米協業タイトルで実現したUbisoftの取り組み~CEDEC 2018レポート(2)
TAを増やす改善策は「余裕をもつこと」~若手テクニカルアーティストが大いに語ったラウンドテーブル~CEDEC 2018レポート(3)
『ウイニングイレブン 2019』Enlightenの導入が実現した効率的なライティングワークフローとは~CEDEC 2018レポート(5)

TEXT&PHOTO_神山大輝 / Daiki Kamiyama(NINE GATES STUDIO)
EDIT_小村仁美 / Hitomi Komura(CGWORLD)

<1>バーチャルキャラクターをリアルへ召喚するための技術的4要素

登壇したのは株式会社バーチャルキャスト CTO 岩城 進之介氏。岩城氏はもともと株式会社ドワンゴでマルチメディア企画開発部 先端演出技術開発セクション セクションマネージャというポジションで、VRライブハウス「ニコファーレ」(2011〜)や『超歌舞伎』(2016〜)などのイベント演出、AR/VRの開発を担当してきたが、現在は2018年7月27日付で設立された株式会社バーチャルキャストのCTOとなっている。

岩城 進之介氏(株式会社バーチャルキャスト CTO)

本講演では、バーチャルキャラクターをイベントへ召喚するための必要な技術要素と、技術を選ぶ基準、大型イベントならではの落とし穴、そしてバーチャルキャラクターならではの気をつけるべきポイントについて俯瞰的に説明された。岩城氏ははじめに「バーチャルキャラクターは技術的にも面白いので、ついつい凝ったことをやりがちです。ですが、最終的なゴールは来場者を楽しませることなので、技術だけを追い続けるのではなく本質を忘れないようにしましょう」とイベント全般の目的について説明した。

バーチャルキャラクターを召喚するための技術的な要素は、「キャラクターの動きをどうつけるか」、「キャラクターをどう出現させるか」、「キャラクターアクターにどう演じてもらうか」、「イベント全体をどう成立させるか」の4点に大別される。

まず、キャラクターの動きをつかさどるモーションキャプチャは、「身体の動き=モーション」、「表情=フェイシャル」、「口パク=リップ」という3要素に分けて考えられる。そして、これらはリアルタイムキャプチャか、事前収録による非リアルタイムかによっても区分される。

身体の動きは、以下4点の表現方法がある。

  • ・HTC Vive、Oculus RiftなどのVR機器利用
  • ・Perception Neuron、Xsens MVNなどのジャイロ・加速度センサ式
  • ・Kinectや画像処理などのカメラを使って撮影をするもの
  • ・OptiTrack、VICONなど光学式モーションキャプチャ

この4種類は一長一短で、現段階ではこれを使えば絶対間違いないという「銀の弾丸」はないという。そのため、用途に合わせて適宜使い分ける必要がある。例えばHTC Viveの場合は、安価かつ簡単に使える上にViveトラッカーを複数付けることで全身を綺麗にキャプチャできるが、イベント現場ではViveトラッカーのバッテリ管理が難しい。また、混線によるトラブルも多い。ジャイロ・加速度センサ式も手軽だが、磁気や地場環境にかなり依存してしまうため、業務で使用するのは厳しいという。

また、近年バージョンアップで安定性の増したMVNも、ジャイロ誤差で徐々に原点からズレてしまう問題もあり、キャラクターの立ち位置が詳細に決まっている舞台の場合は原点位置を補正する必要がある。これらに比べて光学式モーションキャプチャは快適に用いられるが、使うスペースが大きく設営が非常に大変。光学式が使える環境なら光学式を使ったほうが良いが、設営の観点から見てその他のシステムを用いるシーンも多いという。

表情(フェイシャル)の表現は、現在は外部オペレーターによるコントローラ操作が一般的だが、中にはワンオペ向けに出演者自身が操作するものも存在する。ViveコントローラやOculus Touchの各ボタンに表情を割り当てて対応することも可能だが、多くの場合はクオリティが演者自身の操作慣れに依存するため、表情を担当する外部オペレーターがいると良いとのこと。

そして、リップシンクについては、現時点では音声からリップシンクを自動生成するのが定石となっており、OculusのリップシンクライブラリOVRLipSyncなどを用いて、話している声を基に口パクを生成するというのが「一番しっくりくる」という。また、イベント会場では他の音と混ざらない環境をつくったり、アクターにモニターバックをする環境を構築する必要もあるため、ソフトウェアエンジニアが環境構築を行うのではなく音周りのプロに一任した方が良いとも説明された。

また、リアルタイムなのか事前収録なのかという点については、「イベントの場合は基本的にリアルタイムが面白いです。観客とのコミュニケーションが特に重要なので、ここを重視しています。ただ、例えば高難易度のダンスなどリアルタイムでは難しいものは事前収録を行なっておいて、モーションブレンドですり替える、ということもあります」と説明された。リアルタイムから事前収録に差し替える場合は、指差しなどの決めポーズに移行する際に切り替えると、切り替えがわかりにくいという。

次ページ:
<2>キャラクターの世界観に合わせたディスプレイ選択

特集