Web関連技術の標準化を進めるWorld Wide Web Consortium(W3C)は,Web上における文字の扱いに関して記した「Character Model for the World Wide Web 1.0: Fundamentals」を勧告として公開した。W3Cが米国時間2月15日に明らかにした。同勧告は,Webアプリケーションが世界の言語の文字を処理する明確な方法を提供する。

 W3Cによれば,同勧告のモデルにより,異なるプラットフォーム上で世界言語の記述文字に対応するWeb技術が実現し,世界のWebユーザーによるテキストの交換,閲覧,検索が可能になるという。

 同勧告は,同団体が掲げているユニバーサル・アクセスという目標に従って,言語,スクリプト,記述文字の体系,文化的な慣習に関係なく,すべての人がWebを利用できるようにすることを目的としている。仕様の設計者,ソフトウエア開発者,コンテンツ開発者にWeb上で相互運用が可能なテキスト操作について,共通する指針を与えるものになるという。

 同勧告は,Unicode StandardとISO/IEC 10646によって定義されるUniversal Character Set(UCS)をベースとしている。トピックとしては,「文字(character)」,「符号化(encoding)」,「文字列(string)」といった用語の使用,参照処理モデル,文字の符号化の選択と識別,文字のエスケーピング,文字列のインデックス付けなどを取り上げている。

 W3Cは,Unicodeは,テキストの符号化から独立して文字の参照を行なう方法を提供し,業界に広く受け入れられて実装されているため採用されたと説明している。W3Cは,UnicodeをHTML 4.0のキャラクタ・セットとしても採用している。

 しかし,Web上でUnicodeを利用するためには,さらに細かい技術仕様が必要になる。同勧告では,UTF-8,UTF-16,UTF-32といったUnicode符号化の形式選択,可変長文字符号化,結合文字が含まれる文字の数え方,文字列の長さの測り方,文字の重複符号化,エスケープ・メカニズムの使い方について詳しい説明が行なわれている。

 同日公開されたCharacter Model for the World Wide Web 1.0: Fundamentalsは,3シリーズの最初の勧告となる。テキスト操作における統一正規化や文字列の識別を規定する「同Normalization」,IRI規約を定めた「同Resource Identifiers」が続く。ドキュメント・シリーズは2005年に策定完了が予定されている。

◎関連記事
W3C,Webサービスのバイナリ・データ処理を効率化する3仕様を勧告
W3C,複数XML文書を1つに統合する仕様「XInclude 1.0」を勧告として公開
W3C,Webアーキテクチャ基本原則の第1巻をW3C勧告として公開

発表資料へ