本連載では、アカデミックの世界に属してCG・映像関連の研究に携わる人々の姿をインダストリーの世界に属する人々に紹介していく。第13回では、CGの知見を活用し、検査装置や支援技術の開発を行う愛知工業大学の澤野弘明准教授に自身の研究室について語っていただいた。
※本記事は月刊『CGWORLD + digital video』vol. 253(2019年9月号)掲載の「ACADEMIC meets INDUSTRY 愛知工業大学 情報科学部 情報科学科 澤野研究室」を再編集したものです。
TEXT_澤野弘明 / Hiroaki Sawano(愛知工業大学)
EDIT_尾形美幸 / Miyuki Ogata(CGWORLD)
取材協力_芸術科学会
大学でカーナビの要素技術を研究し、カーナビメーカーに就職
愛知工業大学の澤野弘明と申します。本研究室では画像処理を利用した研究を多く取り扱っていますが、CG映像の専門誌である本誌で紹介できる機会を得られて光栄に思います。できるだけ読者の皆様に興味をもっていただけるように、私と、本研究室の取り組みをご紹介します。
-
澤野弘明
愛知工業大学 情報科学部 情報科学科 准教授
博士(工学)
専門分野:画像処理、スポーツ分析、支援技術
sawanolab.aitech.ac.jp
私がCGに興味をもったのは、学部時代に画像処理とCGを扱う研究室に配属されたことがきっかけでした。当時の私の研究テーマが拡張現実感(AR)技術を利用したカーナビの開発だったことも、CGへの興味をかきたてる大きな要因になりました。当時のカーナビは上面図の2次元地図が主流で、3次元地図の経路案内が一部のメーカーから出始めた頃でした。学部の卒業研究から博士課程での学位取得まで、その研究テーマの要素技術である、画像処理による道路領域推定や、視認性の高いAR表示手法を研究しました。修士課程からはSIGGRAPHでの発表も経験し、画像処理とCGに関する知見を深めていきました。
博士の学位取得後は国内のカーナビメーカーに就職し、2年間マネジメントの部署に配属され、主に海外向けのカーナビ製品に携わっていました。会社員だった2011年時点の海外向けのカーナビでは、3DCG表示機能が搭載されていましたが、CGの建物はプリミティブな直方体でした。その原因は車載器で扱えるCPUやメモリが低スペックだったからですが、大学時代に学んできた知見や技術を活用できず、悔しかったことを覚えています。その後、さらに自分の知見を深め、活用もできる方法を模索した結果、2011年4月から愛知工業大学に勤務することになり、現在にいたります。
愛知工業大学で研究室を設け、CGを利用した支援技術の開発を行う
私が所属する愛知工業大学 情報科学部では、学生は学部の3年次から研究室に配属されるしくみになっており、ひとつの研究室に10〜15名の3年生が割り当てられます。4年生も合わせると、学部生だけで20〜30名ほどの大所帯になります。本研究室は大学院に進学する学生もいるので、修士課程も含めると、多いときには40名くらいの学生を私ひとりで指導しています。
2019年度の本研究室の所属学生は、修士課程の2年生が4名、1年生が1名、学部の4年生が12名、3年生が12名で、合計29名となります。これらの学生ひとりひとりと議論して、各々の研究テーマを決めていきます。CGに関連したものに絞ると、本研究室発足後の2〜3年間は、OpenGLを使ったCG表現のアルゴリズムの開発や、CG映像作品の制作を行なってきました。このとき学生がつくった作品は、愛知県のローカルコンテストに入賞したりもしました。
その後の研究テーマは、前述のようなアルゴリズムの開発から、CGを利用した支援技術の開発へとシフトし、今にいたります。例えば、手話の学習や、漫画の映像化を、CGを用いて支援する技術を開発しています。これらの研究の詳細は、本記事の後半でご紹介します。
学会活動に関しては、年間1本程度の原著論文の発表と、3本程度の国際会議、15本程度の国内会議での研究発表をしています。積極的に発表している学会は、芸術科学会、情報処理学会、電子情報通信学会です。毎年3月に開催される映像表現・芸術科学フォーラムでは、2年連続で企業賞と優秀発表賞を受賞しています。
また学会とは別に、本研究室で開発したiPhone/iPad用アプリをいくつか公開しています。例えばFP viewerは、画像同士の特徴点のマッチングを簡単に確認できるアプリです。色スカウターは、カメラで撮影した被写体の色を検出し、その値をRGB、HSV、CMYK、Web用の16進数で表示するアプリです。遅延ビデオカメラは、ビデオカメラで撮影した映像を任意の遅延時間で再生するアプリで、スポーツの姿勢分析などに活用できます。
▲【左】FP viewerの画面。左右2枚の画像同士の特徴点をマッチングしています。上図では、89個の特徴点が検出されました/【右】色スカウターの画面。上図では、カメラで撮影したステープラーの青色の値が表示されています
▲遅延ビデオカメラの画面。上図では、4秒の遅延再生を設定しています
本研究室の卒業生の就職先は、大手企業ならミクシィ、NTTドコモ、ビズリーチ、富士通、ヤフーなどが挙げられます。愛知県の学生の多くは地元志向が強いため、県内に本社・支社をもつリコージャパン、シイエム・シイも代表的な就職先となっています。ほとんどの卒業生は、在学中の研究内容や、培った技術を活かせる職種に就いており、卒業後は企業人として、本研究室に技術相談をしにくることもあります。そういった人たちともポジティブな関係をもてるような環境づくりにも取り組んでいます。
次ページ:
産学が連携し、危険な下水管路内を簡易的に検査するシステムを提案
産学が連携し、危険な下水管路内を簡易的に検査するシステムを提案
本研究室では産学連携を積極的に進めており、企業からの技術相談がきっかけで、共同研究や共同開発へと発展する場合もあります。内容は、前述のようなアプリや、後述する検査装置の開発、画像解析に関する研究が多くを占めています。
ここでは、代表的な検査装置を2つご紹介します。ひとつは、下水管路内検査のための浮流式全方位カメラシステムに関する研究[1]です。これは総務省、静岡大学 石原研究室、日水コンと共に進めている受託・共同研究で、下水管路内の検査にかかる労力や危険性の軽減と、時間の短縮を実現する手法として、下水管路内を浮流しながら移動する観測ノードで周囲の様子を撮影し、地上の作業者に無線通信で撮影した映像データを転送するシステムを提案しました。
[1]前田拓磨, 林 友貴, 澤野弘明, 石原 進: "下水管路内検査のための浮流式全方位カメラシステムの検討", マルチメディア、分散、協調とモバイル(DICOMO2016)シンポジウム論文集, pp.212-219, 2016
本研究では、映像データを転送するための通信面を石原研究室、観測ノードの制作と画像処理アルゴリズムの構築を本研究室が担当しています。さらに、下水道の調査・計画・設計・施工・維持管理などの事業を行う日水コンの協力も得ながら、実用化を目指した検査装置の実験と改良を続けています。
観測ノードは球状のカプセルになっており、内側には水が入っています。さらに内側には半球状の内部カプセルが浮いており、下水管路内の真上と側面を同時に撮影できる全方位カメラと、下水管路内を照らすための照明、およびバッテリーが設置してあります。研究の初期段階では瓶型と船型の観測ノードも試作しましたが、下水管路内の堆積物に引っかかりやすい構造と、カメラの撮影方向を制御できない問題がありました。そこで、カメラの光軸が常に下水管の上部を向くようにするため、前述のような構造の観測ノードを試作し、今も改良を続けています。
▲下水管路内検査のための浮流式全方位カメラシステムの試作品
2013年度末時点で、国内にある下水管の総延長は約46万kmにおよび、この中の約1万kmが50年の耐用年数を経過し、老朽化による損傷事故が起きやすくなっています。下水管路内の検査は多くの時間と費用を要するのに加え、有毒ガスが発生している場合があり、1983年から1999年の16年間で573人が中毒死しています。しかし本システムが実用化されれば、有毒ガスによる中毒死の危険にさらされることなく、長距離の検査を簡易的に実施できるようになります。
iPod touchと画像処理アプリを組み合わせ、安価な検査装置を提案
もうひとつの検査装置は、油圧シリンダロッドの傷検査システム[2]です。こちらは半田重工業、ウォンツの2社と共同研究、共同開発を進めています。油圧シリンダロッドは建設機械や農業機械に用いられており、製造工程で0.03〜0.10mmの表面傷がつく場合があります。傷がある製品は不良品とみなされますが、鏡面反射する円柱というシリンダロッドの材質や形状の影響もあり、目視検査での傷検出は難しく、精度に偏りが生じます。専用の検査装置もありますが、高額で1,000万円以上するのに加え、大型で設置場所の確保が必要という課題もあります。大規模な投資ができない中小企業では検査装置の導入が難しいため、目視検査に頼っているケースが多いです。
[2]直井翔汰, 林 雅也, 澤野弘明, 松下剛幸, 新美彰崇: "シリンダロッドの傷検出手法の検討", 平成30年度 電気・電子・情報関係学会 東海連合大会 特集号, 2018
そこで本研究では、画像処理アプリをインストールした複数のiPod touchを使うことで、導入コストを抑えた検査装置を提案しました。iPod touchは、前述の検査装置に比べれば安価なのに加え、故障した際の修理交換が容易という利点もあります。さらに既存の目視検査場所に設置できるほど小型なので、新たに場所を確保する必要がありません。シリンダロッドをスライドさせれば、長尺製品の検査にも対応可能です。インターネット回線を利用したアプリの更新も可能で、検査結果をサーバに収集することもできます。
▲直径40mmのシリンダロッドにおける3mmの傷。この写真は傷が目視しやすいように、カメラと照明の配置を工夫しています。本研究で提案した検査装置を用いると、このような微細な表面傷を、安価に、高い精度で検出できます
▲油圧シリンダロッドの傷検査システムの試作品
CGのライティングモデルを基に画像処理の問題を解決
前述のような画像処理を利用した研究では、CGの基本的なライティングモデルを基に、問題を解決することが多々あります。下水管路内検査のための浮流式全方位カメラシステムの場合は、照明光がカプセルの表面で反射してしまう問題がありました。油圧シリンダロッドの傷検査システムの場合は、鏡面反射する材質のため、環境光によって傷の見え方が変化してしまう問題がありました。これらを解決するにあたり、CGのライティングモデルを使って原因を切り分けて分析し、カメラと照明の位置を決定しました。
以上のように、CGの基礎技術、特にライティングの技術は、画像処理を利用した検査装置を開発している企業や研究所で重宝されています。ひょっとしたら、読者の皆様が学業や研究、仕事を通して培ってきたCGの知見が、検査装置開発の分野でもおおいに役立つかもしれません。この分野に少しでも興味がある方は、会社訪問や意見交換をなさってみてはいかがでしょう。就職先や仕事の幅を広げるための、選択肢のひとつになるのではと思います。エンターテインメント分野に加え、こういった分野でも、皆様が活躍なさることを期待しています。
[[SplitPage]]RESEARCH 1:手話学習を助ける、手話CG Wikiの開発
・研究背景
手話は、目・頰・口・顎・首などの頭部と、手や腕の動作を使う視覚言語で、日本語の五十音やアルファベットを表す指文字と、「犬」「走る」「美しい」といった名詞、動詞、形容詞などを表す単語によるコミュニケーションが基本となっています。例えば「犬」という名詞の場合は、両手のひらを前方に向け、親指以外の指を前に倒します。
こういった手話の学習手段としては、前述のような動作をイラストや文字で説明してある書籍や、話者の頭部や手の動作を撮影した映像教材の使用が一般的です。YouTubeなどの映像共有サービスでは、有志の協力によって制作された手話の映像教材が公開されています。このような映像を提供する場合には、話者の肖像権の確保や、撮影用の機材と場所の用意が必要になります。そのため、膨大な量の手話の単語を、正確な動作で、全て撮影することは難しいのが実情です。そこで本研究では、Webページ上でマウスとキーボードを操作するだけで映像を生成できる、手話CG Wikiの開発に取り組んでいます[1]。
・主な先行研究
CGキャラクターによる手話映像を生成する研究は、モーションキャプチャを用いる手法[2]や、XML表記に基づくタグ入力を用いる手法[3]などが提案されています。しかし、手話教材をつくりたい一般ユーザーが、モーションキャプチャの特殊な設備を用意することは困難ですし、XML表記でタグ入力することも、馴染みのない手法であり、困難だろうと予想されます。また、ひとつの団体が、辞書に相当する数の手話単語の映像を生成しようとするなら、多大なヒューマンリソースが必要となります。そのため本研究では、複数のユーザーが共同して、CGキャラクターによる手話映像の辞書、すなわち手話CG Wikiを生成できる環境の構築を目指しています。
・手話CG Wikiの概要
前述した通り、手話CG Wikiでは実際の人物の代替としてCGキャラクターを用います。CGキャラクターによる手話は、Webページ上で誰でも登録・閲覧・編集ができ、それぞれ専用画面が設けられています。登録画面では、単語の意味、表情、手と腕の動作、手型(指の折り曲げ)の動作、移動動作などを入力します。
▲手話CG Wikiの【上】登録画面と、【下】閲覧画面。上図では「犬」という単語の登録と、閲覧を行なっています。これらのほかに、登録した単語を編集できる編集画面もあります
表情は、現時点では「笑顔」「怒り」「悲しみ」「指定なし」の4種類を用意しています。手と腕の動作は、手のひらの始点と終点の2ヶ所をマウスで指定することで生成します。このとき、手のひらの向きも指定できるようになっています。
▲現時点で用意している入力用の表情は、【左上】笑顔、【右上】怒り、【左下】悲しみ、【右下】指定なしの4種類です
▲手と腕の動作は、手のひらの始点と終点の2ヶ所をマウスで指定することで入力します。今後は、手の移動速度も調整できるようにする予定です
手型は、5本の指の全ての関節の動作をひとつひとつ入力していると、かなりの手間と時間を費やすため、使用頻度の高いものはあらかじめ用意してあります。木村ら監修の手話の単語辞書[4]に収録されている2,586単語を調査した結果、全36種類ある手型のうち、10種類が全体の74%を占めていることがわかりました。例えば最も使用頻度の高い「パー」の手型は全体の21%、2番目に使用頻度の高い指文字の「て」は全体の14%を占めています。これらの手型は、入力を補助するボタンが提示されるようになっており、短時間での入力が可能です。また、ボタンを押した後、さらに各指の関節の動作を指定することで、入力補助のない、別の手型の入力にも活用できるようになっています。
複数の被験者の協力を得て、前述の「犬」の単語登録を入力補助なしで行う実験をしたところ、入力回数は30回で、入力時間は約7分を要しました。しかし、同じ実験を入力補助のある状態で行なったところ、入力回数は14回で、入力時間は平均37秒まで削減できました。
・今後の展望
手話では、眉の動きや、手の速度(厳密には加速度・躍度)の変化なども、感情を伝える大事な要素であるといわれています。ただし、これらの入力も手話CG Wikiで実現しようとすると、入力のわずらわしさも増えてしまいます。できるだけ簡単な操作で、実用的な手話映像を生成するため、今後は手型以外の共通化できる動作も分析し、モーションキャプチャで収録された人の動きなども活用しながら、入力可能な要素を増やしていく予定です。
・参考文献
[1]山口達也, 村松大輔, 澤野弘明, 石井成郎, 鈴木裕利, 酒向慎司: "手話CG Wikiにおける動作の簡略入力手法の提案", 情報処理学会全国大会講演論文集, 80th, pp. 1.405-1.406, 2018
[2]加藤直人: "日本語テキストから手話CGへの翻訳技術", NHK技研R&D, No. 134, pp. 45-52, 2012
[3]S. Ebling, J. Grauert: "Building a Swiss German Sign Language Avatar with JASigning and Evaluating It Among the Deaf Community", Universal Access in the Information Society, Vol. 15, No. 14, pp. 577-587, 2010
[4]木村 勉, 原 大介, 神田和幸, 森本一成: "日本手話・日本語辞書システムの開発と評価", 手話学研究, Vol. 17, pp. 11-27, 2008
RESEARCH 2:オブジェクト抽出に基づく、漫画の映像化
・研究背景
静止画像である漫画のコマやキャラクター、背景、吹き出し、擬音語などのオノマトペといったオブジェクトを動かし、効果音を付与したPVやモーションコミックが、その漫画や関連商品の宣伝に利用されています。前述のようなモーションコミックを制作するためには、漫画に描かれたオブジェクトを手動で切り出し、それらの動きやタイミングを制御する必要があります。一連の作業は手間と時間を要するのに加え、画像処理や映像制作の専門知識や技術も必要です。そこで本研究室では、初心者が、全自動もしくは半自動で手軽に漫画を映像化できる手法の研究を進めています。
・主な先行研究
漫画の映像化手法のひとつとして、松下らは任意のオノマトペと映像効果を映像制作者が指定し、漫画に付与する手法を提案しています[1]。また、PowerPointに代表されるプレゼンテーションソフトでも、静止画像に対して映像効果を付与することができます。しかしこれらの手法は、静止画像内の特定のオブジェクト、例えば漫画のコマの中に描かれたオノマトペやキャラクターだけを分離し、動かすことには向いていません。この課題を解決するため、本研究室では、画像処理でコマの中のオブジェクトを分離し、映像効果を付与する研究を進めており、これまでに、手描きオノマトペ[2]と吹き出し[3]に注目した研究を発表しています。以降では、吹き出しに注目した研究の概要をご紹介します。
・映像効果の頻度の調査
本研究では、最初に3種類の漫画(『青春×機関銃』NAOE/スクウェア・エニックス、『五時間目の戦争』優/KADOKAWA、『ドラゴンボール』鳥山 明/集英社)の単行本と、それが映像化されたモーションコミックを比較し、どんなオブジェクトに映像効果が付与されているかを調査しました。モーションコミック内で使用された合計165コマのうち、オブジェクトに映像効果が付与されたコマは65コマでした。そのうちの28コマで、吹き出しに映像効果が付与されていました。コマの中には様々なオブジェクトが描かれていますが、吹き出しに映像効果が付与される頻度は、それ以外のオブジェクト以上に高いといえます。そこで本研究では、コマの中から吹き出しを自動的に抽出し、映像効果を付与する手法を提案しました。
・提案手法の概要
本研究では、吹き出しの形状として、矩形型・丸型・ギザギザ型の3種類を想定しました。これらの吹き出しを漫画のコマから抽出するため、コマ画像を2値化し、2値画像に対して膨張・収縮処理を施してノイズを除去した上で、ラベリング処理によって面積を取得し、吹き出しの領域を検出しました。領域のバウンディングボックス(矩形で囲まれた領域)と吹き出しの面積がほぼ同じであれば矩形型、領域の形状の円形度が高い場合は丸型、いずれにも該当しない場合はギザギザ型に分類しています。
▲自動抽出する吹き出しの形状として、【左】矩形型、【中】丸型、【右】ギザギザ型の3種類を想定しています
映像効果としては、吹き出しの平行移動・振動・拡大縮小・透過のいずれか、または、それらを組み合わせたものを付与できるようにしています。
▲上図では、ひとつのコマに2つの吹き出しが存在しているため、【左上】最初に右側の吹き出し内の台詞だけを表示した後、【右上】左側の吹き出し内の台詞を表示しています。さらに、【左下】左側の吹き出しを拡⼤することで映像視聴者の視線を誘導した後、【右下】元の大きさへと縮小しています
※上図の制作にあたり、『ブラックジャックによろしく』(佐藤秀峰)を使用しています
また、ひとつのコマに複数の吹き出しが存在する場合は、映像視聴者の視線誘導のため、吹き出し内の台詞を消去し、読む順番に台詞を表示する機能も提案しています。
▲ひとつのコマに複数の吹き出しが存在する場合は、【左】最初に読む吹き出し内の台詞だけを表示し、振動などの映像効果を付与します。続いて、【右】2番目に読む吹き出し内の台詞を表示し、拡大などの映像効果を付与します。これにより、映像視聴者の視線を誘導することが可能です
・今後の展望
本研究の最終目標は、漫画のスキャン画像を入力するだけで、いくつかのパターンの映像が自動生成され、Adobe Premiere Proなどの市販のソフトウェアで編集できる形式で出力される環境を提供することです。そこにいたるまでには、まだまだ課題がありますが、読者の皆様に利用してもらえる日を目指し、改良を続けていきたいと考えています。
・参考文献
[1]松下光範, 今岡夏海: "ディジタルコミック制作のための動的な音喩表現生成システム", 人工知能学会全国大会論文集, Vol. 25, pp. 1-4, 2011
[2]橋本直樹, 佐藤貴明, 澤野弘明, 鈴木裕利, 堀田政二: "漫画のコマ画像からの手書きオノマトペの抽出とその映像効果付与手法の提案", 情報処理学会全国大会講演論文集, 80th, pp. 4.177-4.178, 2018
[3]佐藤貴明, 澤野弘明, 鈴木裕利, 堀田政二: "漫画のコマの吹き出しに着目した映像化手法の提案", 映像情報メディア学会技術報告, Vol. 42, No. 12, pp. 99-102, 2018
info.
-
月刊CGWORLD + digital video vol.253(2019年9月号)
第1特集:CG百景
第2特集:アニメ『モンスターストライク』~ノア 方舟の救世主~
定価:1,540円(税込)
判型:A4ワイド
総ページ数:128
発売日:2019年8月10日
cgworld.jp/magazine/cgw253.html