脳の仕組みを模した「ディープ・ニューラル・ネットワーク」を使用する機械学習であり「深層学習」とも呼ぶ。ディープラーニングは米グーグルや米フェイスブック、米ヤフーなどが画像認識や音声認識、自然言語処理などの分野で使用しており、認識精度を大きく伸ばしている。

 ディープ・ニューラル・ネットワークは、脳の仕組みを模した「ニューラルネットワーク」を多層に重ねたもの。ニューラルネットワークは1950年代から存在する概念だが、様々な制約により成果を上げることができなかった。ここに来てコンピュータの計算処理能力が劇的に向上し、ニューラルネットワークを大規模化したDNNを構築可能になることで、ニューラルネットワークが真価を発揮できるようになった。

 ディープラーニングの威力を世界に知らしめたのはグーグルだ。グーグルは2012年、「ディープラーニングを採用することで、人工知能が人間に頼らずに『YouTube』の画像の中から猫を発見した」と発表して世界を大きく驚かせた。

 グーグルがディープラーニングを使って開発した人工知能「GoogLeNet」は、2014年8月に開催された画像認識技術のコンテスト「Imagenet Large Scale Visual Recognition Challenge 2014(ILSVRC2014)」で首位となっている。ILSVRC2014はスタンフォード大学などが開催するコンテストで、写真から被写体を探し出す「検出」や、写真に写った被写体が何か判別する「分類」の性能を競う。

 検出のテストでは「犬」や「本棚」など200カテゴリーの被写体が写った50万枚弱の画像を学習させて、4万枚の写真に対して被写体の検出を行わせる。分類のテストでは1000種類のカテゴリーの被写体が写った画像を120万枚学習させて、15万枚の写真に対して被写体の分類をさせる。

 GoogLeNetの性能は、被写体の検出率が43.9%で、分類のエラー率は6.6%だった。グーグルは2014年に初めて同コンテストに参加した。2013年のコンテストにおける首位の成績は、被写体の検出率で22.5%、分類エラー率で11.1%だった。ディープラーニングの台頭によって画像認識の精度が近年、急速に上昇していることが分かる。