旅行で撮影したビデオを後で見返しているときに、このようなことを経験したことはないだろうか。例えば、印象に残ったランドマークが出てくるシーンに飛びたいが、巻き戻しや早送りを繰り返しながら、目的のシーンを探す――。

 このような問題は、特に映像データを扱うときに、常につきまとう。非構造データである映像データを扱う場合にも、前回の連載で指摘した音声ビッグデータの利活用と同種の問題が生じる。

 これまでも、ビデオの中で盛り上がったシーンを検出できる技術や製品が発売されたことがあった。これらの技術では、あらかじめ「辞書」と呼ばれる取り出したい情報をモデル化したデータを基に、シーンの解析を行い、検出を行っていた。

 この技術は、特定のシーンを検出するために使われたが、ユーザが希望するシーンを自動的に判断するような機能はついていなかったため、見たいシーンを見る場合には、やはり先頭から見ていくしかなかった。

 そこで登場するのが、類似画像検索技術と任意オブジェクトの検知技術である。自分の見たいシーンに登場すると思われる画像を登録しておけば、それらの画像が含まれるシーンを自動的に検出し、そこにジャンプしてくれる。また、オブジェクトを抽出するだけではなく、抽出したオブジェクトが何であるかを自動的に推定してくれる機能(注釈データ=アノテーションの追加)があると便利である。

 まとめると、映像や画像のビッグデータの利活用では、特定の画像が現れる場所に飛べること、また、映っている物体の名称を特定する技術が必要となる。

 これらを解決するための技術として、

(1)類似画像検索技術
(2)オブジェクト検出技術
(3)画像アノテーション技術

を挙げる。これらの技術に関しては発展途上であるものの、実証実験や学会レベルで報告が上がっている。幾つかの取り組みに関して、簡単に紹介する。