指定語句が指定期間に書物でどのくらい使われたかをグラフ表示するサービス「Google Books Ngram Viewer」
指定語句が指定期間に書物でどのくらい使われたかをグラフ表示するサービス「Google Books Ngram Viewer」
[画像のクリックで拡大表示]

 米Googleは米国時間2010年12月16日、書籍本文検索サービス「Google Books」の視覚的分析ツール「Google Books Ngram Viewer」を発表した。膨大な書物のデータから使用語句の量的分析を行いグラフ表示するもので、同社のテストサイト「Google Labs」で試験的に公開する。また、Ngram Viewer用のデータセットをダウンロード可能な形で無償提供する。

 Ngram Viewerは、長い年月の間にどのような語句が書物で頻繁に使われ、また使われなくなったか、隆盛と衰退を比較することができる。例えば「fax」「phone」「email」が1950年以降の書物にどれくらい登場するか、使用が増加するのはいつごろかなどを、視覚的に把握することができる(サンプルのグラフ表示)。

 Googleは2004年以来、書籍などの出版物をスキャンし、世界で1500万冊以上をデジタル化した。データセットは、中国語、英語、フランス語、ドイツ語、ロシア語、スペイン語で書かれた520万冊から、5000億語を収録し、最大5語からなるフレーズも含む。

 このデータセットは米ハーバード大学の研究プロジェクトをベースにしている。人文学研究の定性分析を補完し、革新技術の普及、若者の影響、名声のある職業、検閲の傾向など多岐にわたるテーマの洞察を深めるのに役立つとしている。Google Labsの専用サイトから入手できる。

[発表資料へ]