Googleの深層学習チップ「TPU」に第2世代、性能は180テラFlops

シリコンバレー支局

2017.05.18

　米Googleは2017年5月17日に開幕した開発者会議「Google I/O」の基調講演で、同社の第2世代ディープラーニング（深層学習）専用チップ「Cloud TPU」を発表した（写真1）。1秒間に180兆回の演算（180テラFlops）が可能。第1世代は画像認識などの「推論」にのみ対応していたが、第2世代ではビッグデータからモデルを構築する「学習」にも対応する。

写真1●Cloud TPUを搭載するボード

（出典：米グーグル）

[画像のクリックで拡大表示]

　Cloud TPUは1枚のボードにプロセッサを4個搭載する。この1枚のボードで1秒間の演算回数は秒間180兆回（180テラFlops）になる。さらに64個のCloud TPUを独自の高速ネットワークによって相互接続して「TPUポッド」を構成すると、その演算回数は11.5ペタ（1万1500テラ）Flops、つまり秒間1京（1兆の1万倍）回を超える（写真2）。

写真2●11.5ペタFlopsもの演算性能があるTPUポッド

（出典：米グーグル）

[画像のクリックで拡大表示]

　理化学研究所のスーパーコンピュータ「京」は1秒間に1京回の演算ができることから京と名付けられた。つまり10ペタFlopsである。京の10ペタFlopsは倍精度の浮動小数点演算での数字であり、一方のCloud TPUの浮動小数点演算の精度は不明であるものの（第1世代のTPUでは8ビットの整数演算のみを実行していた）、1秒当たりの演算回数だけなら1個のTPUポッドが8万個のプロセッサーによって構成する京を上回ることになる。

　GoogleのJeaf Dean氏によれば、このTPUポッドの能力の8分の1を使って機械翻訳のモデルの学習を処理したところ、「現在販売されている最速のGPUを32個使った場合に丸1日かかった処理が、TPUポッドでは同じ翻訳精度を保ったまま午後には処理が終了するようになった」（Dean氏）と説明している。つまり8個のTPUボードと32個のGPUを比較すると、前者のパフォーマンスが2倍近くに達したという主張だった。

　Googleは2016年5月に第1世代のTPU（Tensor Processing Units）を発表。すでに検索や音声認識などGoogleがクラウドで提供するAI機能のすべての推論がTPU上で稼働しているという。さらにGoogleは今回、推論よりもコンピュータパワーがさらに必要な学習を処理するものとして、Cloud TPUを開発した。TPUやCloud TPUの開発には、「RISC」アーキテクチャの提唱者であり、「パターソン＆ヘネシー本」として知られるコンピュータ科学の教科書「コンピュータの構成と設計」の著者としても知られるDavid Patterson氏が参加している。