米Googleは文字コード「Unicode 5.1」への対応を開始したことを,公式ブログへの投稿で米国時間2008年5月5日に明らかにした。当初は同社の検索サービスでサポートする。

 4月4日に公開されたUnicode 5.1(Unicodeのプレス・リリース)は,10万キャラクタ以上が含まれる。インドおよび東南アジアの文字を大幅に拡大し,データ処理の際の安定性強化を図った。マレーシア語やミャンマー語に必要な文字や,ドイツ語特有の文字など1624文字を追加した。

 Googleの調査によると,2007年12月のWebページで最も使われていたエンコーディングはUnicodeだった。アクセント記号などの付いていないアルファベットを定義したASCIIや,これに一部のアクセント記号付きキャラクタを追加した西欧のエンコーディングは,大幅に利用が減少しているという。

 Googleは以前より,社内で検索するすべてのテキストにUnicodeを採用しており,他のエンコーディングのデータはまずUnicodeに変換する。「Unicodeは当社の使命を遂行する上で重要な役割を果たしている」(同社上級インターナショナル・ソフトウエア・アーキテクトのMark Davis氏)

[公式ブログへの投稿記事]