「(ハンディキャップなしでプロ棋士に勝つには)たぶん10年はかかるだろう」――Wired Magazineは2014年5月掲載の記事で、こんな囲碁AI作者の談話を紹介した。

 それからわずか1年半。米グーグルのAI研究部門であるGoogle DeepMindは、2016年1月27日に発表した英Nature誌の論文で、同部門が開発した囲碁AI「AlphaGo」が2015年10月に欧州チャンピオンFan Hui氏と5回対戦し、全勝したことを明らかにした。Fan Hui氏はプロ2段で、欧州の囲碁大会で2013年、2014年、2015年と優勝していた。

 DeepMindの研究チームは論文中でWiredの記事を引用し、「以前は少なくとも10年かかると思われていたが、コンピュータが史上初めて、囲碁のプロ棋士にハンディキャップ(置き石)なしで勝った」と勝利宣言してみせた。AlphaGoは2016年3月9日から、世界トップ級のプロ棋士であるLee Sedol氏(プロ9段)と韓国で対戦する予定だ。

 なぜDeepMindの研究チームは、当初の予想よりも10年早く、プロ棋士に勝利する偉業を達成できたのだろうか。Nature論文から「AlphaGo」のアルゴリズムを読み解くことで、その解に近づいてみたい。

ビデオゲームで高得点を叩き出した「深層強化学習」

 DeepMindが開発した囲碁AIの新規性の一つに、ブロック崩しなどのビデオゲームで高得点を叩き出せるAIを作って見せた、DeepMindの十八番(おはこ)ともいえる「深層強化学習」を、囲碁という一種の対戦型ゲームに取り入れた点がある。

 深層強化学習は、深層学習(Deep Leaening)と強化学習(Reinforcement Learning)を組み合わせた技術である。

 深層学習とは、神経細胞の働きを模したニューラルネットワークを多段に重ね、大量のデータで学習させる機械学習の手法だ。特に、画像データに写っている物の種類を識別する物体認識については、他の手法と比べて圧倒的に精度が高い。

 強化学習は、コンピュータが選択した行動やそれによる環境変化に、何らかの「報酬」を設定することで、より高い報酬をもらえるような行動を学習させる技術である。

 深層強化学習という概念を最初に提唱したのが、2010年に設立された英ロンドンのスタートアップ企業、DeepMind(ディープマインド)だった。同社が開発したAI技術「Deep Q-Network(DQN)」は、ビデオゲームでハイスコアを出すための操作アルゴリズムを深層強化学習で自動生成する。ちなみにDQNという名称は、多層ニューラルネットワーク(Deep Neural Network)と、強化学習の手法の一つであるQ学習(Q-Learning)を組み合わせたものであり、日本のネットスラングとはとりあえず関係ない。

 それまでも、「ゲームで高いスコアを出すこと」を目的とした強化学習の研究は多数行われていた。しかし、DQNが研究者を驚かせたのは、DQNがゲーム画面とスコア“のみ”を入力データにして、ハイスコアを出す行動パターンを学習したことだ。それまでの研究では、人間がゲームの内容に応じて画像を前処理するのが一般的だった。

 DeepMindは、DQNに数十本のビデオゲームを学習させたところ、過半のゲームについて人間の熟練プレーヤーと同等のスコアを獲得したという。米グーグルはこの技術に注目し、2014年1月に同社を推定約5億ドルで買収した。

深層強化学習を囲碁に取り入れる

 囲碁AI「AlphaGo」においても、この深層強化学習の発想が生かされている。盤面の情報を、あたかもゲームの画面のように俯瞰して情勢を判断し、対局の勝敗を強化学習の「報酬」に見立て、打ち手を判断するニューラルネットワークを鍛えた。

 だが、AlphaGoの革新性はそれだけではない。最も重要な成果は歴代の棋士たちが積み上げた棋譜(対局における打ち手の全記録)データベースの数百倍にも上るデータを、囲碁AI同士の対局で自ら作り出し、これを盤面(局面)の形勢判断、つまり「勝ちやすさの評価」の精度アップにつなげた点にある。AIを鍛えるのに必要なビッグデータを、コンピュータが自ら作り上げたのだ。

 以下、DeepMindの研究チームが、AlphaGoをプロ棋士と対等レベルまで鍛えた過程を、三段階に分けて説明しよう。