• BPnet
  • ビジネス
  • IT
  • テクノロジー
  • 医療
  • 建設・不動産
  • TRENDY
  • WOMAN
  • ショッピング
  • 転職
  • ナショジオ
  • 日経電子版
  • PR

  • PR

  • PR

  • PR

  • PR

Vista文字セット問題

VistaでUnicode以外の選択肢はなかったのか?──京大の安岡助教授が語る

中田 敦=ITpro 2006/12/26 ITpro

 「『JIS X 0213』の基本的な考えは,必要な漢字を使いたくても使えなくて困っている人たちを助けることだった」。こう語るのは,京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏。1997年以来JISの委員としてJIS規格の文字コード(「JIS X 0213」や「JIS X 0213:2004」など)の策定にかかわってきた安岡氏に,最近の文字コードの変遷や,Windows VistaにおけるJIS X 0213対応に関する見解を聞いた。

写真●京都大学人文科学研究所附属漢字情報研究センター助教授の安岡孝一氏
──JIS X 0213の概要や,それが2004年に改訂された経緯などを教えてほしい。

安岡氏:過去に使われていた文字集合「JIS X 0208」や「JIS X 0212」には,日本の地名で使われている文字が抜けているなど,重要な文字の不足がありました。ただしこの問題は,そこに住む地元の人は困っていても,日本全体で見るとほとんどの人が困っていなかったので,長らく見過ごされてました。2000年に作った「JIS X 0213」の基本的な考えは,この問題を解決することでした。

 JIS X 0213では,第三水準漢字(1249字,その後10字追加)や第四水準漢字(2436字)などが追加されています。特に第三水準漢字は,1978年に定めた第一水準や第二水準漢字に「本来入っていてもおかしくなかった」漢字と言えます。これには,NTTの電話帳などで調べた地名や氏名に使われている漢字を可能な限り収めたほか,高校までの教科書に出てくる漢字や,旧字の人名用漢字などが含まれています。

 なお1990年に作ったJIS X 0212も,JIS X 0208に不足している文字を「補助漢字」として追加しています。そこでJIS X 0213は,JIS X 0212を邪魔しないように,JIS X 0212で追加された文字も含む形で,文字を追加しています(図1)。

図1●JIS文字コードとWindowsの関係

──2000年に作ったJIS X 0213は,2004年に改訂されて「JIS X 0213:2004」になった。その経緯は?

安岡氏:JIS X 0213では,JIS X 0208に載っている字体は極力変えない方針でした。JIS X 0208は広く運用されていて,字体も安定していたからです。

 ところが2000年12月に,政府の国語審議会(現在は文化審議会国語部会)が,「表外漢字字体表」という答申を出しました。これは常用漢字以外の漢字(表外漢字)の字体選択の「よりどころ」を定めたものです。大まかに言うと「現在のワープロでは間違った(正しくない)漢字(JIS X 0208やJIS X 0212の例示字形)が出るので,その漢字をワープロで出すべきではない」という主張でした。

 表外漢字字体表では,国語審議会が定める正しい字体を「印刷字体」として示すので,将来文字コードの見直しがあるときに,これを改訂するよう求めていました。

 JISのスタンスは「文字コードは通信のための規格なので,字体はフォント・メーカーに任せる」というものだったのですが,答申を無視するわけにはいきませんので,2004年にJIS X 0213を改訂することにしました。こうしてできたのが「JIS X 0213:2004」です。168字の例示字形を変更したほか,10字を新しい漢字としてJISに追加しました。

──2004年の改正で,「例示字形の変更」と「新しい漢字の追加」という2種類の対応が生じたのはなぜか?

安岡氏:2004年の改正で難しかったのは,表外漢字字体表の通りに字形を変更すると,Unicodeとの対応が変わる文字が存在したことです。

 つまり,2004年の改正で追加した10文字とは,JIS X 0208やJIS X 0212で定める「例示字形」と,表外漢字字体表が改めるように求めた字形の双方が,すでにUnicodeに別の文字としてアサインされていた文字だったのです(図2)。JISの例示字形を変更すると,同じ字形の文字に対して2つのコードがアサインされることになります。そこで,すでにUnicodeに存在する字形を,JISに新しい文字として追加したのです。

図2●「Unicodeに既に存在する10文字」がJIS X 0213:2004に追加された

 表外漢字字体表が改めるように求めた字形がUnicodeに存在しない文字については,JISの例示字形を変更しました。それが168文字です。

 表外漢字字体表への対応については,別のケースも存在します。例えば,表外漢字字体表では「鴎(かもめ)」も「しなかもめ(鴎の「区」の中が「品」になっているもの)」に変更するように求めていますが,「しなかもめ」はJIS X 0208の補助漢字に追加されていました(当然,JIS X 0213にも存在する)。ですから「鴎」は,2004年の改正の対象にはなっていません。

──マイクロソフトはWindows Vistaで「JIS X 0213:2004」の文字セットに対応した。また2007年1月からは,Windows XPやWindows Server 2003に対しても「JIS X 0213:2004対応フォント」を配布する予定だ。マイクロソフトのJIS X 0213:2004対応をどう思うか。

安岡氏:マイクロソフトがJIS X 0213:2004をサポートすることは,とてもいいことだと思います。ただマイクロソフトのJIS X 0213サポートは「文字セット」のサポートであって,「文字コード」のサポートではないことは指摘したいです。(JIS規格を策定した側としては)サポートするなら徹底してサポートしてほしかったと思っています。

 JIS X 0213:2004という文字コード規格は,エンコード・メソッド(手法)も「参考」として記載しています。「Shift_JIS-2004」「EUC_JIS-2004」「iso-2022-jp-2004」です。Windows Vistaでは,これらを全くサポートしていません(Windowsでは,第三水準/第四水準漢字などの「JIS X 0208にない文字」は,Unicodeとしてのみ取り扱う)。

 アップルは「Mac OS X」で「Shift_JIS X 0213」に対応しています。Windows Vistaでもファイルの入出力ぐらいは「Shift_JIS-2004」をサポートしてくれても良かったのではないかと思っています。

──マイクロソフトは「Shift_JIS-2004」に対応しなかった理由として,従来のシフトJIS(Windows Codepage(cp)932)が外字として使っていた領域とコードが被っている点や,JIS規格票の「参考」であることなどを挙げているが。

安岡氏:Shift_JIS-2004が便利なのは,Unicodeにおける「サロゲート・ペア」などの問題を回避できる点です。

 JISでは,2000年にJIS X 0213を作った後に,新規に追加した文字(1090文字)を,Unicodeにも追加してもらうよう交渉しました。その結果,残念ながら303文字が「サロゲート・ペア」として追加されることになりました(サロゲート・ペアに関しては,「Vistaで化ける字,化けない字」の囲み記事,「日本語文字セットがVista最大の問題として急浮上」,「文字列比較の際にサロゲート・ペアを無視する」を参照)。

──サロゲート・ペアの使用頻度が気になる。サロゲート・ペアの303文字の中に,一般の利用者が使いそうな文字はあるか?

安岡氏:例えば,「じょ」という漢字がサロゲート・ペアです。単位を表す漢字で,「万億兆京垓」の次が「じょ(「禾」に「予」)」です。

 また「口」に「七」と書く「しかる」もサロゲート・ペアです。表外漢字字体表では,叱(「口」に「ヒ」の付きだしたもの)ではなく「口七」を正式な文字としています。つまり,正字がサロゲート・ペアになったわけです。

 「丈」の右上に点が付いた文字も,サロゲート・ペアです。プロ・ボクサーの辰吉丈一郎さんの「丈」も,正しくはこちらだと聞いています。

 またUnicodeは,サロゲート・ペア以外にも「文字合成」に注意が必要です(関連記事「Vistaで化ける字,化けない字(続報)」)。簡単に説明すると,「プ」という文字をUnicodeで表す場合に,「プ」と一文字で表現する方法と,「フ」と文字合成用の半濁点(゜)を組み合わせて表現する方法の2種類が可能だということです。Unicodeに対応したアプリケーションを開発する上では,これらの点に注意が必要です。

 ただし,Unicodeを使うことが悪いと言っているのではありません。私が所属する京都大学人文科学研究所でも,日本語や中国語,韓国語を扱うシステムで「UTF-8」を採用しています。私が言いたいのは,WindowsでUnicodeだけをサポートするのではなく,すべての文字を2バイトで表現しているShift_JIS-2004などをサポートしても良かったのではないか,ということです。

 つまり,「cp 932とコードが被るShift_JIS-2004」と「サロゲート・ペアなどに対応する必要があるUnicode」のどちらを選ぶのか,ユーザーの選択に任せてもよかったのではないかと思っています。


【2007年1月4日訂正】当初,図1内の説明文で「第3/第4水準漢字は補助漢字を包含する」としておりましておりましたが,「第3/第4水準漢字には補助漢字の一部が含まれる」の誤りでした。また本文第12段落で「安岡氏:2004年の改正で難しかったのは,表外漢字字体表の通りに字形を変更すると,Unicodeと対応できなくなる文字が存在したことです」とあるのは,「Unicodeとの対応が変わる文字が存在したことです」の誤りでした。お詫びして訂正します。文中の表記は修正済みです。


安岡孝一(やすおか こういち)
京都大学人文科学研究所附属漢字情報研究センターの助教授。1965年生。1990年京都大学大学院工学研究科情報工学専攻修士課程を修了し,同年京都大学大型計算機センター助手に就任。1997年に同助教授となる。2000年に現職に就き現在に至る。京都大学博士(工学)。文字コードに関して多数の著書がある。

あなたにお薦め

連載新着

連載目次を見る

今のおすすめ記事

  • 【スマホ料金の勘違い】

    auのスマホ料金、「最安1GB」よりも「2GB」が得な理由

     au(KDDI)のスマートフォン向け料金プランは、新旧が混在している。ほかの携帯電話事業者と同様の、通話がかけ放題となるサービス「カケホ」「スーパーカケホ」に加えて、通話定額が導入される前から提供している「LTEプラン」も選べることが特徴だ。またNTTドコモにはない、1GBのデータ定額サービスも用…

ITpro SPECIALPR

What’s New!

経営

アプリケーション/DB/ミドルウエア

設計/開発

サーバー/ストレージ

ネットワーク/通信サービス

セキュリティ

もっと見る