人工知能の進化は急で、静止画だけでなく動画に何が写っているかを理解できるようになった。ライブで配信されるビデオをリアルタイムで解析し、内容に応じて区分けする。この技術は、既に大手企業の広告事業で使われている。ビデオ解析の究極の目的は、ロボットの“眼”となること。応用範囲は広大だ。今回は、ヒトの目に近づきつつある最新のコンピュータービジョンをレポートする。

写真からビデオ解析へ

出典: VentureClef
出典: VentureClef
[画像のクリックで拡大表示]

 コンピュータービジョンでトップを走っているのは、ニューヨークに拠点を置く「Clarifai」というベンチャー企業だ。人工知能の技術を使って、イメージ解析技術を開発している。同社は2013年、イメージコンテスト「Large Scale Visual Recognition Challenge」でトップ5に入賞し、注目を集めた。イメージコンテストでは、写真に写っているオブジェクトを識別するが、今ではこの技術をベースにビデオ解析技術を開発している。ビデオに写っているオブジェクトを、1万のカテゴリーに分類できるという。

 上の写真がその事例で、自動車から撮影したビデオを解析し、そこに何が写っているかをグラフで表示している。上段は入力したビデオで、ゴールデンゲートブリッジを自動車で走行している様子である。下段が解析結果で、時間ごとに登場するオブジェクトをグラフで表示している。Clarifaiはビデオに登場するオブジェクトを把握し、それを区分けして出現頻度を時間ごとにプロットする。