組織や人間の様々な活動を通じて、文書や音声、画像、映像といった非構造化データが大量に生み出されています。例えば、従業員が作成したオフィス文書や、顧客とのコミュニケーションで使われるメールやソーシャルメディア、コールセンタで記録する通話録音、病院で撮影するレントゲン写真などが非構造化データに相当します。

 これら非構造化データは生成された直後は頻繁に利用されますが、時間とともに参照されなくなり、いずれファイルサーバーなどに放置されたままになりがちです。特に訴訟リスク回避や防犯、監査などが目的の場合、記録したデータはアーカイブされるのみで、ほとんど参照されることはありません。

 とはいうものの、非構造化データにはCRM(顧客関係管理)やERP(統合基幹業務システム)などの構造化された業務データにはない貴重な情報が含まれています。近年、企業内に蓄積される非構造化データ量が増えるにつれ、これらデータの内容を分析し、ビジネスに二次活用したいという期待が高まっています。

 しかしテキストや音声、画像といった非構造化データはそのままでは機械による計算処理が難しいという問題があります。そこで本記事では、非構造化データの内容を要約するメタデータに着目し、メタデータを分析の素性データとして利用する、非構造化データの分析システムについて説明します。

メタデータを定義する

 以下では、まずメタデータの定義を行い、次に非構造化データの分析の流れを説明します。最後に分析活用システムの構成例を紹介します。

 メタデータとは、図書館の目録のように、文書や音声、映像などファイル・データの内容について説明する情報です。メタデータには様々な種類や定義がありますが、ここでは大きく次の3種類に分類します。

■システムメタデータ
ファイルシステムが扱うファイルの種別や、サイズ、作成日、所有者、アクセス権といった基本的な情報

■カスタムメタデータ
病院の医療画像に付随する患者名やID、生年月日、血液型など業種やアプリ、ファイル固有の情報

■リッチメタデータ
スキャン画像からOCRで読み取った文字列などファイルの中身を解析して得られる情報

非構造化データから抽出するメタデータの種類は多様なため、あらかじめメタデータのスキーマを固定的に決定することは困難です。そこで、将来的に拡張や仕様変更が容易なXMLやRDF(リソース・ディスクリプション・フレームワーク)をメタデータのスキーマ表現に利用します。