• ビジネス
  • IT
  • テクノロジー
  • 医療
  • 建設・不動産
  • TRENDY
  • WOMAN
  • ショッピング
  • 転職
  • ナショジオ
  • 日経電子版
  • 日経BP
  • PR

  • PR

  • PR

  • PR

  • PR

新常用漢字が引き起こす文字コード問題

新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能

2009/12/11 日経コンピュータ

 普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ)

 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。

 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じる恐れがある。新しい常用漢字表2136字のなかに、シフトJISやEUC-JPでは書けない(扱えない)漢字が含まれているからだ。なぜこのような事態になったのか。経緯を振り返ろう。

1981年以来の常用漢字表改正

 戦後の漢字施策は、1946年11月に内閣告示された「当用漢字表」に始まる(図1)。当用漢字表は「法令・公用文書・新聞・雑誌および一般社会で使用する漢字の範囲」を示した表で、1850字を収録していた。当用漢字表の字体は「綠」「眞」「狹」など旧字体だった。これを新字体にしたのが、1949年 4月内閣告示の「当用漢字字体表」である。「緑」「真」「狭」など1850字の標準字体が示された。

図1●常用漢字表の変遷
新しい「常用漢字表」は早ければ2010年度にも内閣告示が行われる予定である。新たに追加される196字の多くは、2000年に国語審議会が答申した「表外漢字字体表」から選ばれている。
[画像のクリックで拡大表示]

 その後、1981年10月には「挟」「蛍」「逝」など95字が追加され、総数1945字の「常用漢字表」として内閣告示された。これが現行の常用漢字表である。シフトJISやEUC-JPなどの文字コードは、常用漢字表より後に作られたものなので、常用漢字表の1945字はすべて問題なく表示・処理できる。

 今回改正される新しい常用漢字表では、図2にある196字が追加される予定だ。その多くは、2000年12月に国語審議会が答申した「表外漢字字体表」から選ばれた。これが問題を複雑なものにした。

図2●新しい常用漢字表に追加される予定である196字
角カッコ[ ]内にあるのは「許容字体」、丸カッコ( )内にあるのは参考として挙げられている「康煕字典体」である。
[画像のクリックで拡大表示]

 表外漢字字体表には、印刷に用いるべき「印刷標準字体」として、「」「塡」「頰」など1022字が収録されている。ところが、シフトJISやEUC-JPでは、これら1022字をすべてはサポートできていないのだ。そして、サポートできない文字のいくつかが、新しい常用漢字表に追加される見込みだ。実際に問題となりそうな4つの文字を詳しく見ていこう。

口へんに七の「しかる」は4バイト

 新しい常用漢字表2136字のなかでも、最も大きな問題をはらんでいるのが、「𠮟」(口へんに七)だ。「しかる」の漢字である。2000年の表外漢字字体表では、シフトJISやEUC-JPに存在する「叱」ではなく、Unicodeにしか存在しない「𠮟」(口へんに七)が採用された。それが新しい常用漢字表でも踏襲される。表外漢字字体表が字体の標準とする「康煕字典」(中国清朝の康煕帝の命令によって編纂された漢字字典)にあるのが、「𠮟」(口へんに七)だったためだ。

 「𠮟」(口へんに七)のUnicodeは「U+20B9F」であり、Windows XPやMac OS 9などの古いOSでは表示や処理に問題が生じる可能性がある。「𠮟」(口へんに七)はUnicodeの文字符号化形式(エンコーディング形式)である「UTF-8」や「UTF-16」で、4バイトとして扱われる。4バイトの文字は、漢字を2バイトと決め打ちにしているシステムでは全く利用できない。シフトJISやEUC-JPだけでなく、Unicodeでも「UCS-2」で処理ができない。シフトJISやEUC-JPに存在する「叱」で代用するアイデアもあるかもしれないが、叱のUnicodeは「U+53F1」で、「𠮟」(口へんに七)のU+20B9Fとは全く異なる文字コードだ。データのやりとりを考えた場合、代用は不可能である。

シフトJISにない旧字が採用

 次に大きな問題をはらんでいるのが、「剝」(剥の旧字)だ。この字も、シフトJISやEUC-JPに含まれていない。「剥」であればシフトJISにも EUC-JPにも含まれているが、「剥」のUnicodeは「U+5265」で、「剝」(剥の旧字)の「U+525D」とは文字コードも字体も異なる。

 「塡」(「装塡」「補塡」などで用いる「填」の旧字で、Unicodeは「U+5861」)も、シフトJISには含まれていない。EUC-JPでは「8F B8 B4」という3バイトで表されるが「Internet Explorer」はEUC-JPの3バイトコードをサポートしていないため、普通の方法では表示できない。

 「頰」(「頬」の旧字でUnicodeは「U+9830」)にも同様の問題がある。これもシフトJISに含まれておらず、EUC-JPでは「8F E8 A4」という3バイトコードになる。

 問題のある4字を図3にまとめておくので、じっくり見ていただきたい。「𠮟」「塡」「剝」「頰」の4字をシフトJISで使えない最大の理由は、シフト JISの元となった漢字コード規格「JIS X 0208」が、これら4字を収録していないからである。JIS X 0208はこれら4字の代わりに「叱」「填」「剥」「頬」を収録しており、実用上それで問題がないと考えられていた。

図3●新しい常用漢字表にあってシフトJISにない4字
これらの4字は、多くのユーザーが日常的に使用しているシフトJISには存在しないため、これらの字を扱う文書やアプリケーションは、Unicodeに対応する必要がある。
[画像のクリックで拡大表示]

 それが甘かったのだ。

ここから先はITpro会員(無料)の登録が必要です。

次ページ いわゆる「JIS2004問題」
  • 1
  • 2

あなたにお薦め

連載新着

連載目次を見る

今のおすすめ記事

ITpro SPECIALPR

What’s New!

経営

アプリケーション/DB/ミドルウエア

クラウド

運用管理

設計/開発

サーバー/ストレージ

クライアント/OA機器

ネットワーク/通信サービス

セキュリティ

もっと見る