2020年、日本の玄関でITを使ったおもてなしを――。NTTや東京国際空港ターミナル(TIAT)、日本空港ビルデング(空ビル)、パナソニックの4社が進めている、羽田空港でのITを活用した訪日外国人向けの案内に関する実証実験が大詰めを迎えている。2015年12月から実施してきた第1フェーズに続き、2017年8月8日にはNTTとパナソニックがそれぞれ開発した計5種類のITを羽田空港国際線ターミナル内で一般の旅客向けに提供する第2フェーズの実証実験を始めた。

 国際線ターミナルを運営するTIATをはじめ各社は、第1フェーズで技術的な検証はおおむねめどがついたと判断。今回の第2フェーズでは市場ニーズの確認に重きを置く。早ければ2018年度から順次、各技術についてTIATが実用化の可否を判断し、2020年度をめどに実用化を目指す考えだ。

 政府は2016年に約2400万人だった訪日外国人を、2020年に4000万人に増やす目標を掲げる。五輪観戦で日本を訪れた訪日客をITでもてなし、彼ら彼女らに驚きと満足を与えることはできるのか。今回の実証実験で検証される5つの技術をひもとく。

NTTは画像認識AIや音声明瞭化など3技術

 8月からの実証実験で検証するNTTの技術は「かざして案内」「人流誘導高度化」「インテリジェント音サイン」の3種類。

 かざして案内はスマートフォン(スマホ)のカメラで看板や物体を撮影すると、詳細情報を日本語や英語、中国語、韓国語で閲覧できるものだ。画像認識の人工知能(AI)で対象物を識別し、対象物ごとにあらかじめ用意した詳細情報を旅客のスマホに表示させる。

看板を画像認識して詳細情報を表示する「かざして案内」
看板を画像認識して詳細情報を表示する「かざして案内」
[画像のクリックで拡大表示]

 今回の実証実験にNTTは国際線ターミナル内に約200枚ある看板の画像と、焼き肉レストランのメニューにある肉の画像を登録して臨んだ。例えば「出発」という看板をスマホで読み込むと出発動線の案内が表示される。肉の写真や肉そのものを撮影すると、肉の種類の詳細や焼き方などが表示される。NTTの画像認識AIは他社の類似技術と異なり、学習に必要な画像データが少なくて済むのが特徴だという。「1枚の看板につき正面と左45度、右45度からそれぞれ撮影した3枚の画像を用意するだけで済む」(NTTの説明員)。

 「人流誘導高度化」は保安検査場前に並ぶ行列の長さを検出し、ターミナル出発階の壁面に3段階で表示するものだ。保安検査場前を定点撮影した画像に行列を検出する複数の枠を設定。一つひとつの枠ごとに一定以上の面積比で人が写り込む状態が継続すると、その枠のエリアは人が並んでいると判定する。

画像認識で検出した保安検査場の行列の長さに応じ、混雑状況を表示するデジタルサイネージ
画像認識で検出した保安検査場の行列の長さに応じ、混雑状況を表示するデジタルサイネージ
[画像のクリックで拡大表示]

 2018年3月末までに、行列の長さと保安検査までの所要時間の関係を調査して「目安の待ち時間」を追加表示したり、出発便情報の案内システムと連携させて「○分後に混雑しそうです」などと予測を表示したりできるよう機能拡張する。

定点カメラの画像を、複数の枠に分割して検査待ちの旅客の有無を判定している
定点カメラの画像を、複数の枠に分割して検査待ちの旅客の有無を判定している
(出所:NTT)
[画像のクリックで拡大表示]
「インテリジェント音サイン」技術で聞き取りやすい音声ガイダンスを流す、トイレ前のスピーカー
「インテリジェント音サイン」技術で聞き取りやすい音声ガイダンスを流す、トイレ前のスピーカー
[画像のクリックで拡大表示]

 「インテリジェント音サイン」はトイレやエスカレーターなどで流す視覚障害者向けのガイダンス音声を、周囲が騒がしい状況でも聞き取りやすいように加工するものだ。音声を形成する音域のうち、旅客が聞き取るうえで重要な役割を担う音域の出力を上げ、騒音に重なって聞き取れない音域の出力を下げる。全体として加工前と加工後で出力が変化しないようにしている。

 第1フェーズの実証実験では、実験場所にマイクやスピーカー、PCを設置して、リアルタイムに騒音を分析してガイダンス音声を加工していた。今回は個々のトイレやエスカレーター前であらかじめ収集した騒音データを基に、加工を施したガイダンス音声を用意。既設の音声ガイダンス装置内の音声データを入れ替えて流す。リアルタイムな騒音の状況に対応できない代わりに、既設の装置をそのまま使えて追加投資が不要だというメリットがある。