>>前回

 ビッグデータに関する連載の3回目である。今回はビッグデータシステムを構築する際の2番目の手順に当たる「メタデータ変換」を取り上げる。ビッグデータの分析はこのプロセスの成果によって大きく左右される。つまり、ビッグデータを扱う処理全体の中でも重要なプロセスである。

 前回、ソーシャルネットワーク(SNS)から収集される大量データが、自社のビジネスにとって意味のある情報かどうかを判断するには、コメントに含まれるキーワードを適切に抽出する技術が必要になると述べた。今回は、そのような技術として注目されている「セマンティック技術」について、テキストマイニング技術を例に紹介したい。

 セマンティック技術とは、「情報の意味を、コンピュータにとって理解できる形で可視化し、コンピュータに処理を行わせる技術」である。例えば、「昔からリンゴが好きで、近所のスーパーで見かけるとつい買ってしまいます。」というコメントがあった場合、人であればコメントの意味を解釈してリンゴをお薦めできる。

 セマンティック技術は、このように人が頭を使って解釈することを、コンピュータにやらせてしまおう、という技術である。この技術の概念自体は新しいものではないが、ビッグデータブームの中で最近注目を集めている。

 では、「情報の意味を、コンピュータにとって理解できる形で可視化する」には、どうすればよいか。収集されたコメントに意味付けがされていくプロセスを紹介する。

意味要素の抽出とテキストマイニング

 SNSに書き込まれたコメントを想定すると、そこから得たい情報は「世間では何が話題になっているか」「自社ブランドに対するクレームにはどのようなものがあるか」「コメントした方々の購買パターンはどのようなものか」---といったものだろう。

 これらをコメントから得るのはなかなか難しく、コメントの裏側に隠れている「コメントの意味」を解釈する必要がある。そのためには、まず、コメントを分解することが必要である。具体的には、

1)コメント内の各単語、それらの単語の登場頻度
2)自社ブランドに関連する単語、その単語に対する評価値、コメント本文
3)自社商品に関連する単語、その単語に対する評価値、コメント日時

などだ。これらがコメントという情報の「意味要素」である。こうした意味要素の抽出には、データマイニングやテキストマイニングの技術がよく用いられる。