本連載では、ロボットや自動システムと融合するAI「フィジカルAI」がもたらす産業分野の変革の行方を追う。

今回のテーマは、「『VSS』が実現する、監視カメラから始めるデジタルツイン」。

膨大なビデオアーカイブや監視カメラ映像。それらを、ただ撮影しただけの資産から“意味ある情報”へと変える技術が、「NVIDIA AI Blueprint for Video Search and Summarization(VSS)」だ。本記事では、フィジカルAI「NVIDIA Cosmos Reason」と連携するVSSの概要と、ドローン検査や工場管理などのユースケースを紹介。ローカル環境での利用を可能にした最新バージョンのVSS2.4や、デジタルツインの新たな入口としての可能性を解説する。

記事の目次

    動画生成AIとは逆アプローチで ビデオ分析を行う技術「VSS」

    NVIDIAが推進する「VSS」は、ビデオ映像をAIが深く理解して検索や要約を可能にする最先端の技術だ。平たく言えば、テキストプロンプトから動画を生成する動画生成AIとは逆のアプローチ、つまり動画を見てプロンプト(テキストの要約や分析結果)を生成する技術である。

    VSS開発の背景には、NVIDIAが次世代のAIとして位置付ける「フィジカルAI」がある。現在の生成AI、その次に実用化が進むエージェント型AIのさらに先にあるフィジカルAIは、ロボットや自動運転車が物理世界を正確に理解し、行動するために不可欠な技術とされる。

    NVIDIAは2025年1月、フィジカルAIモデルとして「NVIDIA Cosmos」を発表したが、その1コンポーネント「NVIDIA CosmosReason」は、画像や動画に映る物体が「何であり、どうなっているか」をAIが判断するためのモデルだ。例えば、ロボットアームがパンを掴んでトースターに入れる動作には、周囲の環境、トースターの形状、パンの位置と状態を正確に認識する必要がある。これを実現するのが、Cosmos Reasonが提供するVLA(Vision Language Action)、すなわち視覚と言語と行動を結びつける機能だ。

    VSSは、このCosmos Reasonの強力な映像理解能力と連携するかたちで開発された。VSSの技術的な基盤となっているのはVLM(Vision Language Model)であり、マルチモーダルな入力を処理し、映像から高度なインサイトを引き出す。

    VSSは、コンピュータビジョンAI、ビデオクリップ、Cosmos Reason VLMを基にビデオ分析AIエージェントが分析を行う。上図では、風力タービン作業のビデオクリップから作業員の行動を分析し、安全性の逸脱や環境的危険などを特定、要約している。VSSは、大規模な環境構築は不要で、DGX Sparkなどのローカル環境でリアルタイムに利用できる

    膨大な映像資産がVSSで意味ある情報に

    VSSがもたらす最大の価値は、企業や組織が保有する膨大なビデオアーカイブや、リアルタイムでながれ続ける監視カメラ映像を、単なる記録から実用的な情報へと変換することにある。建設業界などでは「ドローンで撮影した点検映像が大量にあるが、人手不足でチェックしきれない」という課題が常態化している。VSSは、こうした映像の分析・レポート作成を人間の100倍以上の速度で実行できる。

    具体的なユースケースは多岐にわたる。産業インフラではドローン撮影の長時間の橋梁点検映像をVSSに読み込ませるだけで、AIが錆と腐食を自動で検出できる。物流・製造では、倉庫内のカメラ映像を解析し、「作業員が通路に落ちた箱を拾った」といった特定の行動を要約したり、作業員が安全装備を正しく着用しているかをリアルタイムで監視したりできる。工場では、監視カメラ映像をAIが常時監視し、通路上の障害物や危険エリアへの侵入を検知。さらには、スポーツ中継映像から各選手のパフォーマンスを分析したり、サファリパークの映像から動物の種類と行動を自動でテキスト化したりと、応用範囲は広い。

    VSSの主なユースケースとして、➀レポート生成やビデオ検索を、入力ビデオの長さに比べて100倍高速に実行する「膨大なビデオアーカイブの理解」、➁要約やビデオ検索を1分間に70クリップ処理する「多数の短いクリップの一括処理」、➂145台のライブカメラに対して、リアルタイムアラートの生成やQ&Aを提供する「ライブカメラの監視」などがある

    ※「NVIDIA H100」を8台用いた際のパフォーマンス

    VSS2.4の登場で導入コストが大幅に低下

    2025年9月にリリースされたVSS2.4では、「NVIDIA DGX Spark」を含むNVIDIA Blackwell世代のプラットフォームがサポート対象となり、ワークステーションやエッジデバイスでもVSSが実行可能となった。とりわけ、DGX Sparkは約60万円からという破格のAIシステムであり、そのインパクトは大きい。そもそもVSSのソフトウェア自体は無料で提供されているため、その恩恵は計り知れないと言えるだろう。

    またNVIDIAは、開発者が最新のAI技術を手軽に試せる場として「NVIDIA APIカタログ(build.nvidia.com)」を公開している。VSSも本カタログに登録されており、無料でその機能を体験することができる。

    カタログのデモページでは、先に紹介した橋梁検査やサファリパーク、倉庫作業などのサンプル映像を使い、実際にAIがどのように映像を分析し、テキストで要約を生成するかをインタラクティブに試すことができる。

    APIカタログにはVSS以外にも230種類を超える多種多様なAI APIが公開されている。デジタルツインやAI活用の検証の取っかかりとして、まずはこのAPIカタログに触れ、VSSがもたらす「動画生成AIの逆」の世界を体験してみてほしい。

    NVIDIA DGX Sparkは「デスク上のAIスーパーコンピュータ」として注目されるコンパクトなAIシステム。Grace Blackwel(l GB10)スーパーチップを採用し、従来は数千万円クラスのサーバが必要だったVSSのような高度なAIビデオ分析処理を、ローカルのワークステーション環境で実行可能にする。デジタルツインの活用と、AIの民主化を大きく前進させるモデルとして、2025年秋より国内出荷が開始されている。
    NVIDIA APIカタログを使ってVSSを無料で体験

    お問い合わせ

    エヌビディア合同会社
    www.nvidia.com/ja-jp/contact

    TEXT__kagaya(ハリんち)
    EDIT_池永 都 / Miyako Ikenaga