• BPnet
  • ビジネス
  • IT
  • テクノロジー
  • 医療
  • 建設・不動産
  • TRENDY
  • WOMAN
  • ショッピング
  • 転職
  • ナショジオ
  • 日経電子版
  • PR

  • PR

  • PR

  • PR

  • PR

ニュース

グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果

八木 玲子=日経パソコン 2007/11/01 日経パソコン

 グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語のつながりやすさを示すデータを公開した。例えば「グーグルで」という言葉の後には、「検索」という語が使われることが最も多い、といったことが分かるデータだ。インターネットで収集した膨大な日本語データを解析することで作成した。勤務時間の20%を自分の好きなことに使える同社のルール(いわゆる「20%ルール」)によって生まれた成果だという。

 N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。

 どの語とどの語が連続して出現しやすいかは、膨大な量の言語データを解析して導き出すのが一般的。グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。1~7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。

 データは、特定非営利活動法人 言語資源協会の「言語資源流通サービス」を利用して公開。団体/個人の区別なく利用できるという。

 データを作成したのは、同社のソフトウエア・エンジニアである工藤拓氏と賀沢秀人氏。いずれも自然言語処理などの分野で実績のある技術者である。

あなたにお薦め

連載新着

連載目次を見る

今のおすすめ記事

ITpro SPECIALPR

What’s New!

経営

アプリケーション/DB/ミドルウエア

クラウド

運用管理

設計/開発

サーバー/ストレージ

クライアント/OA機器

ネットワーク/通信サービス

セキュリティ

もっと見る