「Java SE 6完全攻略」第56回文字列の正規化

2007.12.10

世界中のさまざまな文字を符号化しているUnicodeには、さまざまな特徴があります。

その特徴の1つに結合文字があります。

たとえば、「が」は「か」を表すU+304bと濁点を表すU+3099を用いて、U+304b U+3099と表すことができるのです。

これ以外にも半濁点や、ドイツ語のウムラウトなども同じように結合文字で表すことができます。

「が」を表すU+304cと、「か」＋濁点のU+304b U+3099を表示しても、外見上の違いはありません。問題は結合文字ともともとの文字を同じものとして扱えるかどうかということです。

このような結合文字はコードとしては同じではありませんが、文字の扱いとしては同じものとして扱うことができます。これを等価(Equivalance)といいます。特に結合文字などの合成列の場合、同一視することが可能です。このような文字を正規等価(Canonical Equivalace)といいます。

図1 正規等価

次の例を考えてみましょう。いわゆる半角カナです。

全角のカナの「ア」と半角カナの「ｱ」は同じ文字と考えられるでしょうか。

全角と半角では見た目はかなり違います。見た目が異なるので、正規等価とは呼ぶことができません。しかし、指し示している文字は同じです。

このような場合、互換等価(Compatibility Equvalance)と呼びます。

ここで示したように、Unicodeでは正規等価と互換等価という2種類の文字の等価性を扱います。

このため、実際に文字列を比較する場合、比較できるように文字列を正規化する必要があります。

文字列の正規化には次にしめす4種類の形式があります

正規分解 Normalize Function Decomposite (NFD)
互換分解 Normalize Function Compativle Decomposite (NFKD)
正規合成 Normalize Function Composite (NFC)
互換合成 Normalize Function Compativle Composite (NFKC)

正規分解は正規等価の文字を分解していくことです。たとえば、文字列中に「が」があれば「か」+濁点に分解します。

そして、分解した文字の順序の一意性を保証するために、並び替えを行ないます。2つの部分に分解できるものであれば順序の並び替えは必要ありません。しかし、複数の部分に分解できる文字もあるため、このような並び替えを行ないます。

互換分解は正規分解と共に互換等価な文字を置き換えていきます。たとえば、文字列中に「ｱ」があれば、「ア」に置き換えます。

正規合成は正規分解した文字列を再び合成することです。また、互換合成は互換分解をした文字列を正規合成することになります。

Javaにおける文字列の正規化

Javaで文字列の正規化を行なうのが、Java SE 6で導入されたjava.text.Normalizerクラスです。

Normalizerクラスはたった2つのメソッドしか定義されていません。しかも両方ともstaticなメソッドなのです。

さっそく使い方をサンプルで見ていきましょう。

サンプルのソース	NormalizerSample1.java

Normalizerクラスには正規化を行なうnormalizeメソッドと、正規化されているかどうかをチェックするisNormalizedメソッドが定義されています。

両方のメソッドとも第1引数の型はCharSequenceインタフェース、第2引数が正規化の形式を列挙型にしたNormalize.Formです。

サンプルではnormalizeメソッドを使用しています。

  private void normalize(String text) {
      // オリジナルの文字列
      System.out.print(text + ": ");
      printHex(text);

      // 正規分解
      String normalizedText = Normalizer.normalize(text, Normalizer.Form.NFD);
      printHex(normalizedText, Normalizer.Form.NFD);

      // 互換分解
      normalizedText = Normalizer.normalize(text, Normalizer.Form.NFKD);
      printHex(normalizedText, Normalizer.Form.NFKD);

      // 正規合成
      normalizedText = Normalizer.normalize(text, Normalizer.Form.NFC);
      printHex(normalizedText, Normalizer.Form.NFC);

      // 互換合成
      normalizedText = Normalizer.normalize(text, Normalizer.Form.NFKC);
      printHex(normalizedText, Normalizer.Form.NFKD);

      System.out.printf("%n");
  }

StringクラスはCharSequenceインタフェースをインプリメントしているので、そのままnormalizeメソッドの第1引数にすることができます。赤字で示した部分が正規化の形式です。

normalizeメソッドの戻り値の型はStringクラスになります。

printHexメソッドは16進数で文字列を表示するメソッドです。いちおうソースを示しておきます。

    private void printHex(String text, Normalizer.Form form) {
        System.out.printf("%4s: ", form);
        printHex(text);
    }

    private void printHex(String text) {
        for (char c: text.toCharArray()) {
            System.out.printf("%x ", (int)c);
        }
        System.out.printf("%n");
    }

それでは、実行してみましょう。まず、正規等価のもじ、「が」と「か」+濁点を正規化してみました。

が: 304c
 NFD: 304b 3099
NFKD: 304b 3099
 NFC: 304c
NFKD: 304c

か?: 304b 3099
 NFD: 304b 3099
NFKD: 304b 3099
 NFC: 304c
NFKD: 304c

「か」の後が?になっているのは、濁点は結合文字用であって対応するフォントがないためです注。

「が」も「か」+濁点も正規分解、互換分解でU+304b U+3099となっていることが分かります。また、正規合成、互換合成はU+304cになります。

では互換等価の「ア」と「ｱ」はどうなるでしょう。

ア: 30a2
 NFD: 30a2
NFKD: 30a2
 NFC: 30a2
NFKD: 30a2

ｱ: ff71
 NFD: ff71
NFKD: 30a2
 NFC: ff71
NFKD: 30a2

「ア」は正規化しても変化はありません。一方の「ｱ」は正規分解、正規合成ではU+ff71のままです。

したがって、「ア」と「ｱ」を比較するためには互換分解もしくは互換合成が必要なことが、この結果からも確認できます。

文字列を比較する場合でも、必要に応じて正規化することを心がけるようにしましょう。

注：「゛」と結合文字用の濁点は異なるコードが割り当てられています。「゛」はU+309b、結合文字用の濁点がU+3099となります。

参考

Unicode Standard Annex #15: Unicode Normalization Forms

著者紹介櫻庭祐一

横河電機ネットワーク開発センタ所属。Java in the Box 主筆

今月の櫻庭

今年もあっという間に時間はすぎ、早くも年末となってしまいました。

年末といえばもちろんクリスマス。今年は23日、24日と連休なので、どこも混雑するでしょうね。

とはいえ櫻庭にとって関心があるのは、なんといってもクリスマスケーキ。

去年はPierre Herméの定番ケーキであるイスパハンをモチーフにしたBûche Ispahanを食べてみました。バラの香りがおいしさを誘うケーキなのです。

今年もすでに予約を完了しているので、いまから食べるのが楽しみです。何を予約したかは内緒(笑)。

最近ではドイツのシュトーレンやイタリアのパネトーネも売られていますね。しかし、これはまだほとんど知られていないのではないでしょうか。

デンマークでクリスマスなどのお祝いの日に食べられれているカイングラです。

クロワッサンのようにバターを多く使った生地にフルーツやチョコレートが添えられたパンをデニッシュといいますが、これはデンマークのパンということです。

このデニッシュの特大版がカイングラ。サクサクの生地にカスタードとレーズンが加えられていてとってもおいしいのです。そのうち、日本でもはやるかもしれませんね。

Bûche Ispahan	カイングラ

なお、今月もサン・マイクロシステムズ奥津正義氏および神谷結花氏に多大なるご協力をいただきました。この場をかりてお礼させていただきます。

Javaにおける文字列の正規化

参考

今月の櫻庭

あなたにお薦め

今日のピックアップ

双日・三井化学・中外製薬のCIO／CDOが激論、IBM時代の経験はDXにこう生かす

NTTドコモや三菱UFJ銀行などランキング上位企業に聞いた、就活生の心をつかむ工夫

仮想マシンなら最大72％安いAzureの予約、どう使いこなすか

ポテンシャルを生かし切れない5G、さらに踏み込んだ整備目標は必要か

NTTドコモの「ポイ活プラン」、キャンペーンの有無で得しやすさに大きな差

住友化学が6工場の設備管理システムを刷新・統合、年間数億円の機会損失削減へ

iPadを「Switch」の外付けディスプレーに、iPadOS 17で対応したUVCを試す

フレックスタイム制で働くITエンジニア、所定労働時間が足りず上司に叱られる

手のひらサイズのミニPCが買い替えの筆頭候補、小さくてもノートパソコンより高性能

拡張規格に対応したUSB Type-Cを選ぼう、性能も重視するなら「Thunderbolt 4」

努力しても昇進候補にならない悩み、組織方針の変化に着目して個人目標を設定しよう

通信パケットの経路を決める「ルーティング」、ルーター間で転送を繰り返す

注目記事

ID／パスワード入力はもう要らない！これからのSSOの「新しいカタチ」とは

日本企業のIT部門が抱える様々な課題を生成AIで解決するソリューションが登場

AI環境を自前でつくる：ベンダー4社が解説するインフラ構築のポイントとは？

エッジコンピューティング最新事例：カギを握る小型・堅牢サーバーの実力は

世界の通信キャリアがクラウド活用を加速！通信業界の最新ユースケースは

クラウドを軸に第三の創業へ 変革に向けた組織とデジタル人材の育成法とは

おすすめのセミナー

「仮説立案」実践講座

CIO養成講座 【第35期】

改革リーダーのコミュニケーション術

パワポ資料が見違える「ビジネス図解」4つのセオリー

間違いだらけの設計レビュー

オンライン版「なぜなぜ分析」演習付きセミナー実践編

問題解決のためのデータ分析活用入門

業務改革プロジェクトリーダー養成講座【第16期】

注目のイベント

【4月17日】AI活用につなげるIT基盤・組織・運用とは？ 鍵は「Edge to Cloud」

【4月19日】データの活用と保護を両立、「段階的なDX」を実現するIT基盤とは？

【4月25日】ハイパーバイザーの基本を学ぶ、参加者にはもれなくプレゼント進呈

プラチナフォーラム 2024 Spring

日経クロステックNEXT 関西 2024

日経ビジネスCEOカウンシル

VUCA時代に勝ち残る戦略的サプライチェーン構築に向けて

人手不足を乗り越える 日本の産業界成長のシナリオ2024

キャリア・オーナーシップが社会を変える

DX Insight 2024 Summer

おすすめの書籍

ソフトバンク もう一つの顔 成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く 改革リーダーのコミュニケーション術

もっと絞れる AWSコスト超削減術

優秀な人材が求める３つのこと 退職を前提とした組織運営と人材マネジメント

Web3の未解決問題

ロボット未来予測2033

日経BOOKプラスの新着記事

集中力を高める デジタル機器に触れる前に必要な2つのこと

集中力アップに必要な「認知リソース」を補充する活動とは？

アメリカ映画の「デストピア」作品が的中させた不気味な未来

あとがき：『一級建築士矩子と考える危ないデザイン』

はじめに：『ランド・パワー原論 古代ギリシアから21世紀の戦争まで』

はじめに：『神秘なるオクトパスの世界』

怒号と涙の「燃える集団」の会議……と思ったら意外に静か

マクロ経済学「経済成長理論」を分かりやすく学べる本

日本一のチェーン店舗数で考える、ビジネス数字思考のヒント

はじめに：池上彰『私たちはなぜ、学び続けるのか』

日経クロステック Special

What's New

経営

クラウド

アプリケーション／DB／ミドルウエア

運用管理

サーバー／ストレージ

クライアント／OA機器

ネットワーク／通信サービス

セキュリティ

この機能は会員登録（無料）で使えるようになります

フォロー連載・特集

設定

日経クロステックが2カ月無料！

クラウドを軸に第三の創業へ　変革に向けた組織とデジタル人材の育成法とは

CIO養成講座【第35期】

【4月17日】AI活用につなげるIT基盤・組織・運用とは？鍵は「Edge to Cloud」

人手不足を乗り越える日本の産業界成長のシナリオ2024

ソフトバンクもう一つの顔　成長をけん引する課題解決のプロ集団

対立・抵抗を解消し合意に導く　改革リーダーのコミュニケーション術

もっと絞れる　AWSコスト超削減術

優秀な人材が求める３つのこと　退職を前提とした組織運営と人材マネジメント

集中力を高める　デジタル機器に触れる前に必要な2つのこと

はじめに：『ランド・パワー原論　古代ギリシアから21世紀の戦争まで』