文書の意味・内容を基に、文書データを検索・分析する手法。マイニングとは、「(鉱山の)採掘・発掘」という意味で、データの中に隠れた有用なルールや相関関係を発見するデータ・マイニングの一種である。営業日報や顧客の声などからノウハウや知識を吸い上げて生かすナレッジ・マネジメントのツールとして使われる。

 オフィスには日々発生する営業日報や会議の議事録、顧客からの問い合わせや社員のメモ書きといった様々な文書があふれています。そのなかには、商品・サービスの改良につながったり、新たな顧客の獲得に直結するような貴重なヒントやノウハウが隠されているかもしれません。

 ところが残念ながら、こうした文書はほとんどが紙のまま保管されていたり、ばらばらに管理されていたりと、決して有効に活用されているとは言えないのが実情でしょう。

 そこで、グループウエアなどを使って、文書を電子化して蓄積・活用する文書管理システムを導入する企業は少なくありません。

 その際に、大量のデータから目当ての文書を即座に探したり、人間では発見できない文書同士の相関関係を見つけるために使われるのが、テキスト・マイニングと呼ばれる手法です。

◆効果
文書の意味・内容を分析

 単純な文書検索ソフトはキーワードで検索するので、文書に書かれている用語が統一されていないと目当ての文書をなかなか探せなかったり、逆に本来の目的と異なる大量の文書が抽出されるといった不具合が生じます。

 それに対して、テキスト・マイニングはキーワードだけではなく、文章の意味や内容そのものを分析して、探し出すのが特徴です。例えば、顧客から集めた大量の意見を基に新たな商品を開発するために、「商品の色に不満がある」という声を検索するとしましょう。

 従来の検索ソフトなら「色」や「不満」といったキーワードを指定するしかなく、これらのキーワードを含んだ文書しか取り出せません。

 一方、テキスト・マイニングは、「色に対する不満」といった自然文を指定すれば、文書の意味や内容を分析して「カラーの種類が少ない」や「赤があるといいのに」といった、指定したキーワードを含まない文書も抽出してくれます。

 そればかりでなく、文書の相関関係を発見する機能を備えたツールも登場しています。

◆事例
分類時間を3分の1に

 キヤノンは今年3月、世界各地の販売会社から集約する製品の修理情報を、テキスト・マイニングを使って効率よく分析する体制を整えました。

 従来は、こうした情報を担当者が手作業で分類していましたが、修理情報は年間60万件に達するために、非常に手間と時間がかかっていました。この作業をテキスト・マイニングに置き換えたところ、分類に費やす時間を3分の1に短縮できました。

 しかも分析済みの情報を関連部署に毎週フィードバックすることで、製品に関する問題を迅速に解決したり、未然に防ぐことができるようになりました。

神保 重紀 sjin@nikkeibp.co.jp