「Java SE 6完全攻略」第56回文字列の正規化

2007.12.10

世界中のさまざまな文字を符号化しているUnicodeには、さまざまな特徴があります。

その特徴の1つに結合文字があります。

たとえば、「が」は「か」を表すU+304bと濁点を表すU+3099を用いて、U+304b U+3099と表すことができるのです。

これ以外にも半濁点や、ドイツ語のウムラウトなども同じように結合文字で表すことができます。

「が」を表すU+304cと、「か」＋濁点のU+304b U+3099を表示しても、外見上の違いはありません。問題は結合文字ともともとの文字を同じものとして扱えるかどうかということです。

このような結合文字はコードとしては同じではありませんが、文字の扱いとしては同じものとして扱うことができます。これを等価(Equivalance)といいます。特に結合文字などの合成列の場合、同一視することが可能です。このような文字を正規等価(Canonical Equivalace)といいます。

図1 正規等価

次の例を考えてみましょう。いわゆる半角カナです。

全角のカナの「ア」と半角カナの「ｱ」は同じ文字と考えられるでしょうか。

全角と半角では見た目はかなり違います。見た目が異なるので、正規等価とは呼ぶことができません。しかし、指し示している文字は同じです。

このような場合、互換等価(Compatibility Equvalance)と呼びます。

ここで示したように、Unicodeでは正規等価と互換等価という2種類の文字の等価性を扱います。

このため、実際に文字列を比較する場合、比較できるように文字列を正規化する必要があります。

文字列の正規化には次にしめす4種類の形式があります

正規分解 Normalize Function Decomposite (NFD)
互換分解 Normalize Function Compativle Decomposite (NFKD)
正規合成 Normalize Function Composite (NFC)
互換合成 Normalize Function Compativle Composite (NFKC)

正規分解は正規等価の文字を分解していくことです。たとえば、文字列中に「が」があれば「か」+濁点に分解します。

そして、分解した文字の順序の一意性を保証するために、並び替えを行ないます。2つの部分に分解できるものであれば順序の並び替えは必要ありません。しかし、複数の部分に分解できる文字もあるため、このような並び替えを行ないます。

互換分解は正規分解と共に互換等価な文字を置き換えていきます。たとえば、文字列中に「ｱ」があれば、「ア」に置き換えます。

正規合成は正規分解した文字列を再び合成することです。また、互換合成は互換分解をした文字列を正規合成することになります。

Javaにおける文字列の正規化

Javaで文字列の正規化を行なうのが、Java SE 6で導入されたjava.text.Normalizerクラスです。

Normalizerクラスはたった2つのメソッドしか定義されていません。しかも両方ともstaticなメソッドなのです。

さっそく使い方をサンプルで見ていきましょう。

サンプルのソース	NormalizerSample1.java

Normalizerクラスには正規化を行なうnormalizeメソッドと、正規化されているかどうかをチェックするisNormalizedメソッドが定義されています。

両方のメソッドとも第1引数の型はCharSequenceインタフェース、第2引数が正規化の形式を列挙型にしたNormalize.Formです。

サンプルではnormalizeメソッドを使用しています。

  private void normalize(String text) {
      // オリジナルの文字列
      System.out.print(text + ": ");
      printHex(text);

      // 正規分解
      String normalizedText = Normalizer.normalize(text, Normalizer.Form.NFD);
      printHex(normalizedText, Normalizer.Form.NFD);

      // 互換分解
      normalizedText = Normalizer.normalize(text, Normalizer.Form.NFKD);
      printHex(normalizedText, Normalizer.Form.NFKD);

      // 正規合成
      normalizedText = Normalizer.normalize(text, Normalizer.Form.NFC);
      printHex(normalizedText, Normalizer.Form.NFC);

      // 互換合成
      normalizedText = Normalizer.normalize(text, Normalizer.Form.NFKC);
      printHex(normalizedText, Normalizer.Form.NFKD);

      System.out.printf("%n");
  }

StringクラスはCharSequenceインタフェースをインプリメントしているので、そのままnormalizeメソッドの第1引数にすることができます。赤字で示した部分が正規化の形式です。

normalizeメソッドの戻り値の型はStringクラスになります。

printHexメソッドは16進数で文字列を表示するメソッドです。いちおうソースを示しておきます。

    private void printHex(String text, Normalizer.Form form) {
        System.out.printf("%4s: ", form);
        printHex(text);
    }

    private void printHex(String text) {
        for (char c: text.toCharArray()) {
            System.out.printf("%x ", (int)c);
        }
        System.out.printf("%n");
    }

それでは、実行してみましょう。まず、正規等価のもじ、「が」と「か」+濁点を正規化してみました。

が: 304c
 NFD: 304b 3099
NFKD: 304b 3099
 NFC: 304c
NFKD: 304c

か?: 304b 3099
 NFD: 304b 3099
NFKD: 304b 3099
 NFC: 304c
NFKD: 304c

「か」の後が?になっているのは、濁点は結合文字用であって対応するフォントがないためです注。

「が」も「か」+濁点も正規分解、互換分解でU+304b U+3099となっていることが分かります。また、正規合成、互換合成はU+304cになります。

では互換等価の「ア」と「ｱ」はどうなるでしょう。

ア: 30a2
 NFD: 30a2
NFKD: 30a2
 NFC: 30a2
NFKD: 30a2

ｱ: ff71
 NFD: ff71
NFKD: 30a2
 NFC: ff71
NFKD: 30a2

「ア」は正規化しても変化はありません。一方の「ｱ」は正規分解、正規合成ではU+ff71のままです。

したがって、「ア」と「ｱ」を比較するためには互換分解もしくは互換合成が必要なことが、この結果からも確認できます。

文字列を比較する場合でも、必要に応じて正規化することを心がけるようにしましょう。

注：「゛」と結合文字用の濁点は異なるコードが割り当てられています。「゛」はU+309b、結合文字用の濁点がU+3099となります。

参考

Unicode Standard Annex #15: Unicode Normalization Forms

著者紹介櫻庭祐一

横河電機ネットワーク開発センタ所属。Java in the Box 主筆

今月の櫻庭

今年もあっという間に時間はすぎ、早くも年末となってしまいました。

年末といえばもちろんクリスマス。今年は23日、24日と連休なので、どこも混雑するでしょうね。

とはいえ櫻庭にとって関心があるのは、なんといってもクリスマスケーキ。

去年はPierre Herméの定番ケーキであるイスパハンをモチーフにしたBûche Ispahanを食べてみました。バラの香りがおいしさを誘うケーキなのです。

今年もすでに予約を完了しているので、いまから食べるのが楽しみです。何を予約したかは内緒(笑)。

最近ではドイツのシュトーレンやイタリアのパネトーネも売られていますね。しかし、これはまだほとんど知られていないのではないでしょうか。

デンマークでクリスマスなどのお祝いの日に食べられれているカイングラです。

クロワッサンのようにバターを多く使った生地にフルーツやチョコレートが添えられたパンをデニッシュといいますが、これはデンマークのパンということです。

このデニッシュの特大版がカイングラ。サクサクの生地にカスタードとレーズンが加えられていてとってもおいしいのです。そのうち、日本でもはやるかもしれませんね。

Bûche Ispahan	カイングラ

なお、今月もサン・マイクロシステムズ奥津正義氏および神谷結花氏に多大なるご協力をいただきました。この場をかりてお礼させていただきます。

Javaにおける文字列の正規化

参考

今月の櫻庭

あなたにお薦め

今日のピックアップ

富士通が重視する技術が海外特許で明らかに、注目は中国で出願増やす量子関連分野

行政手続きの100％電子化を果たしたエストニア、成功の裏に反発招かぬ気配りの妙

不確実性が大きいAIを人間の味方にする方法は、AI有識者8人が議論

「なんか変だな」を見過ごさない、現場の違和感は業務改善のトリガーに

万博で食事や睡眠の支援をパーソナライズ、PHR連携基盤を使う10のユースケース

総務省がスターリンク巡り「合意なき周波数共用」可能に、衛星放送側は強く反発

金融機関が取引先のサイバーリスクを把握可能に、英APRIOが日本で事業開始

「奉行」にAI組み込み中小企業の生産性を向上、AIエージェントもOBCが提供へ

AIエージェントが変えるホワイトカラー業務、長期的には「デジタル社員」が台頭

「御用聞きモダナイズ」が“最新建材を駆使したピカピカの竪穴式住居”を生み出す

「スマートウオッチ向け通信サービス」を使いながら携帯料金を安くする方法

Google Keepは位置情報を使ってメモを通知、店舗での買い忘れ防止に役立つ

注目記事

迫るWindows 10のサポート期限、アップグレードを阻む膨大な作業はこう減らす

新規営業の成功確率を上げる「ABM」とは？ その実践方法と最適ツールの選び方

アプリUIテストの工数を半減したMS＆ADシステムズ、担当者が語るツールの利点

約7割がAIによる顧客対応を評価、1万人調査で分かったCX先進企業への道

「名探偵コナン」のTMSにみる、DXを阻害しないインフラ運用体制の作り方

新リース会計基準強制適用まで約2年 手戻りを防ぐ「7つの成功要因」とは

おすすめのセミナー

CIO養成講座 【第37期】

意思が伝わる、資料が見違える「ビジネス図解」4つのセオリー

「なぜなぜ分析」演習付きセミナー実践編

業務改革プロジェクトリーダー養成講座【第18期】

IT法務リーダー養成講座

ITリーダー養成180日実践塾 【第15期】

ITアーキテクト養成講座【第17期】

注目のイベント

【4月25日】NVIDIAと語る最先端のAIユースケース、展示コーナーで体験も可能

Cyber Identity Foresight 2025

経営課題解決シンポジウム ～経営×AI編～

【5月29日】属人化しやすいシステム運用、無駄削減とセキュリティの強化策

付加価値ある意匠デザインを実現するものづくり技術2025

【5月29日】「エッジAI×最新半導体」がもたらす未来 ～Avnet Tech Day 2025

次世代SCM経営フォーラム

シン・仮想化テクノロジー2025 Summer

日経クロステックNEXT 関西 2025

Digital Back Office Summit 2025 Summer

おすすめの書籍

Power Platform 運用の教科書

部品メーカーサバイバル R&D改革15のポイント

技術者天国 日亜化学工業、知られざる開発経営

クラウドデータベース入門

ChatGPT ＆生成AI 実践活用ガイド

SDV革命 次世代自動車のロードマップ2040

日経BOOKプラスの新着記事

エクセル、データサイエンス、AI…新社会人必読の日経文庫6冊

コルビー米国防次官 中国の覇権は拒否、だが打倒ではない

DeNA南場会長が教わったプロ野球経営論「タニマチ的な気持ちではダメ」

石原壮一郎×大口克人 欲望は成長の原動力、無駄遣いこそ残る人生の課題

人気ストラテジストが教える 株価下落をチャンスに変える方法

「育て方、下手」批判チャットを社長が入手して…失職招いた「余計な一言」

三島由紀夫生誕100年 彼は日本の何を守りたかったのか

「本を贈る日」に日経BOOKプラス編集部員が、贈りたい本 2025

はじめに：『医師が本当に伝えたい 12歳までの育児の真実 親子の身体と心を守るエビデンス』

データセンターは宇宙を目指す？ AI時代に必要なクラウド

日経クロステック Special

What's New

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

設計／開発

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ

この機能は会員登録（無料）で使えるようになります

フォロー連載・特集

設定

新規営業の成功確率を上げる「ABM」とは？その実践方法と最適ツールの選び方

新リース会計基準強制適用まで約2年　手戻りを防ぐ「7つの成功要因」とは

CIO養成講座【第37期】

ITリーダー養成180日実践塾　【第15期】

経営課題解決シンポジウム～経営×AI編～

【5月29日】「エッジAI×最新半導体」がもたらす未来　～Avnet Tech Day 2025

技術者天国　日亜化学工業、知られざる開発経営

SDV革命　次世代自動車のロードマップ2040

コルビー米国防次官　中国の覇権は拒否、だが打倒ではない

石原壮一郎×大口克人　欲望は成長の原動力、無駄遣いこそ残る人生の課題

人気ストラテジストが教える　株価下落をチャンスに変える方法

三島由紀夫生誕100年　彼は日本の何を守りたかったのか

「本を贈る日」に日経BOOKプラス編集部員が、贈りたい本　2025

はじめに：『医師が本当に伝えたい 12歳までの育児の真実　親子の身体と心を守るエビデンス』

データセンターは宇宙を目指す？　AI時代に必要なクラウド