官庁や自治体における、いわゆる行政情報システムでは、一風変わった漢字コードが用いられている。人名や地名に必要な漢字を、それぞれの省庁が思い思いの形で、情報システムに搭載してきたためだ。本特集では、これら行政情報処理用漢字コードのうち、現在かなり大きなシェアを持つ3つの漢字コードの現状をお伝えしようと思う。

 その3つとは、総務省系の「住民基本台帳ネットワーク統一文字」、法務省系の「戸籍統一文字」および「入国管理局正字」だ。さらに、これら3つの漢字コードを一体に統合すべく構築されつつある、経済産業省系の「文字情報基盤(IPAmj)」を最終回で扱う。

 ただ、これら4つの漢字コードを理解するためには、JISで制定された漢字コードの理解が不可欠なことから、第1回の今回は、「JIS X 0213」と「JIS X 0212」について、行政情報処理の視点、特に異体字処理の視点から述べることにする。

 マイナンバーなど行政情報処理に関わるIT技術者は、ぜひこれらの漢字コードをしっかりと理解したうえで、システム設計・構築に携わってほしい。

JIS X 0213

 2000年1月に制定されたJIS X 0213は、現在1万1233字を収録する文字コードであり、日本の行政情報処理の基本を成すものである。「JIS X 0208」という6879字の文字コードを、拡張する形で作られた。

 1万1233字の内訳を以下に示す。

JIS X 0213 JIS X 0208
非漢字 1183字 524字
第一水準漢字 2965字 2965字
第二水準漢字 3390字 3390字
第三水準漢字 1259字 -
第四水準漢字 2436字 -

 JIS X 0213は、規格上、94×94字の文字コード表2枚という形で規定されている。ただし、行政情報処理という側面から見た場合は、ISO/IEC 10646の国際符号化文字集合(UCS=Universal Multiple-Octet Coded Character Set、いわゆるUnicode)の部分集合として扱うことが多く、本特集もその立場を取ることにする。

 なお、その場合、JIS X 0213では非漢字に収録されている「仝」は、UCSでは漢字(U+4EDD)として扱わねばならない、という点に注意が必要である。