第7回　集合論――数学の「集合論」に，RDBの正体を見る

2007.09.03

リレーショナル・データベース（RDB）のデータ構造やSQL命令による様々なデータ操作については，多くの人が知っていることだろう。しかしRDB技術の根底にある「集合論」を詳しく語れる人は少ないはずだ。集合論とRDBの結びつきを理解すれば，RDBの本質が見えてくる。

　ITエンジニアの皆さんなら，米IBMサンノゼ研究所に在籍していたE.F.コッド博士（Edger.F.Codd，1923～2003）をご存知だろう。コッド博士は1970年，「A Relational Model of Data for Large Shared Banks（大規模共有データバンクのためのリレーショナル・モデル）」という有名な論文を発表した。現在の「リレーショナル・データベース（RDB）」（「関係データベース」とも呼ぶ）は，この論文が起源となって誕生したものだ。

　コッド博士が数学の「集合論」を基に，表を使うRDBの仕組みを考案したことはよく知られている。だが，なぜ集合論とRDBが結びつくのかを意識したことがある人は，それほど多くはないのではないだろうか。

　集合論とRDBの結びつきを知れば，これまで以上にRDBの理解が深まることは間違いない。なぜなら，集合論はRDBの「データ構造」と「データ操作」の両方に深くかかわっているからだ。「データ構造」とはデータをどのような形式で持つかを指し，「データ操作」とは必要なデータを抽出するための演算方法を指す。以下で，RDBのこれらの機能を司る集合論について詳しく見ていこう。

同じ属性を持つ要素の集まり

　学生時代に数学の授業で集合論を学んだ人は多いことと思うが，念のため，集合論の基礎を復習しておこう。

　「集合」とは簡単に言えば，同じ属性を持つデータの集まりのことである。集合論では1つひとつのデータのことを「要素」または「元（げん）」と呼ぶ。集合を数式で示す場合は，集合全体をアルファベット1文字で表し，式の右辺を「｛」と「｝」で囲んで要素を列挙する。

　例えば，「1桁の自然数」という属性を持つ要素の集合を「X」とすれば，数式は次のように表せる。

X＝｛ 1，2，3，4，5，6，7，8，9 ｝

　集合を円で表して図示する場合もよくある。このような図を「ベン図（Venn dia-gram）」と呼ぶ。図1は，集合Xをベン図で表したものだ。円の中に集合Xの要素（1，2，3，4，5，6，7，8，9）が格納されていると考える。円の外側は，集合Xの属性に合わない要素の集合であり，これを「補集合」と呼ぶ。Xの補集合は，「X^C」と表す。添え字のcは，「complement（補集合）」という意味である。