ディープラーニングの基本的な仕組みを、手書き文字を認識する例で見てみよう(図3)。

図3●ディープラーニングで手書き文字を認識する仕組み
図3●ディープラーニングで手書き文字を認識する仕組み
手書き文字(MNI ST)の教師あり機械学習の例
[画像のクリックで拡大表示]

脳の神経回路の構造を模倣

 ディープラーニングは、大量のデータを学習するために、人間の脳の神経回路の構造を模倣(モデル化)した情報処理の仕組みであるニューラルネットワークを用いる。図3のニューラルネットワークは、「入力層」「隠れ層」「出力層」という3層で構成している。また、学習データは入力データとなる手書き文字の画素データと、正解データがセットになっている。

 このニューラルネットワークのモデルを学習させるには、まず手書き文字画素データをピクセル単位に分割した上で、各ピクセル値を入力層に入力する。図3のモデルでは縦横28ドットで分割していることから、784個が入力層に並ぶ。

 入力データを受け取った入力層は、受け取った値に「重み付け」をした上で、後段にある隠れ層のニューロン(神経細胞。CPUのような役割を担う)に伝達する。

 同様に隠れ層の各ニューロンは、入力層から受け取った値をすべて加算し、その加算結果を後段のニューロンへと伝える。なお、図3のモデルは3層のネットワークのため、後段のニューロンは出力層となるが、ディープラーニングにおいては、隠れ層が2層以上になっていることが多い。最後の出力層にまで伝達されると、出力層の結果が得られる。

 ディープラーニングによる学習は、出力層の値と各入力データに対する正解データが等しくなるように、各ニューロンの出力に対して重み付けの値を算出することに相当する。正解を出せるように、パラメーターを調整していくわけだ。この重み付けの算出には一般に、正解データとの誤差を出力層から逆に伝搬させることによって識別精度を高める「誤差逆伝搬法」が使われる。

 ディープラーニングでは重み付けの値を、数多くの学習データに対して計算する。どのような入力データにも出力層の値と正解データの値との差が小さくなるように重み付けの値を調整し、学習済みのモデルを作り上げる。

音声認識は既に活用が進む

 基本的な仕組みの次は、ディープラーニングの適用領域を見ていこう。主に音声認識、画像認識、言語処理の三つがある(図4)。それぞれ技術の到達レベルは異なる。

図4●ディープラーニングの適用領域
図4●ディープラーニングの適用領域
音声認識は既に実用化され商用利用が進んでいる。画像認識も実用化が近い
[画像のクリックで拡大表示]

 このうち、最も進んでいるのは音声認識の分野である。2011年ころからディープラーニングの活用に注目が集まり出した。最近は音声認識処理の一部をディープラーニングで処理することが一般的になっている。

この先は日経クロステック Active会員の登録が必要です

日経クロステック Activeは、IT/製造/建設各分野にかかわる企業向け製品・サービスについて、選択や導入を支援する情報サイトです。製品・サービス情報、導入事例などのコンテンツを多数掲載しています。初めてご覧になる際には、会員登録(無料)をお願いいたします。