情報処理推進機構(IPA)の文字情報基盤は、住民基本台帳ネットワーク統一文字(第2回を参照)、戸籍統一文字(第3回を参照)、入国管理局正字(第4回を参照)の全ての漢字を収録し、それらの全てをUCS(Universal Multiple-Octet Coded Character Set、いわゆるUnicode)やIVS(Ideographic Variation Sequence、第1回を参照)で使えるようにするべく、現在も構築作業中の整備事業である。

 全ての漢字に10進数6桁の番号を振り、それらの漢字をUCSおよびIVSで使えるようなフォントを構築・配布中だ。本稿では、文字情報基盤の各漢字の番号をMJxxxxxxで表す。

 文字情報基盤は、上記3つの漢字コードを収録するよう整備されているため、それらの問題点をも内包したものになっている。まずはMJ050207を見てみよう。

MJ050207
U+280ED

 U+280ED「𨃭」は本来「足へんに栽」のはずなのに、右上の点が足りない。文字情報基盤「MJ050207のページ」を見れば分かるとおり、このMJ050207は、戸籍統一文字427710由来であるため、右上の点が足りないのだ。しかも「画数: 17」まで戸籍統一文字と同じという念の入りようである(戸籍統一文字427710のデザインミスについては、第3回を参照)。

 次に「黒」を見てみよう。

MJ029893MJ029894
U+9ED2

 戸籍統一文字の問題点をそのまま継承して、文字情報基盤は「黒」をMJ029893とMJ029894にダブらせて収録している。ただし戸籍統一文字とは異なり、U+9ED2を両方に規定しているが、実装上はMJ029894を優先的に使うことで問題が起こらないようにしているうえ、MJ029893とMJ029894で微妙にデザインを変えている。