第2回　ファイルに含まれる文字を分布図として表示する

細川　淳

2008.04.21

記事で紹介したサンプル・プログラムをダウンロードできます
＜Delphi0704.lzh＞　＜Delphi0704.zip＞

　今回は，テキスト・ファイル中にある文字の分布図を表示するWindowsアプリケーション，名づけて「TextDistributionAnalyzer（以下，TDA）」の作成を通して，Delphiの文字列操作を解説していきます。

図1●今回作成するテキスト・ファイルの文字分布図表示ツール「TextDistributionAnalyzer」の動作画面
[画像のクリックで拡大表示]

　まずTDAの動作イメージをご覧ください（図1）。テキスト・ファイルを入力すると，TDAはその中に出現する文字を文字別にカウントします。後で説明しますが，日本語では通常，1文字を2バイトで表現します。この2バイトのうち，上位1バイトを縦軸，下位1バイトを横軸にとって，文字別のカウントを2次元の分布図として表示したのが図1です。モノクロではわかりませんが，文字の出現頻度に応じて色を変えて表示しています。文字コードの基礎を知っていると，意外なほど楽しく遊べます。筆者も作ってみて初めてわかりました。

　今回はこのサンプルの作成を通じて，解説を進めていきます。Delphiで文字列を扱うときには必ず役立つでしょう。まず文字コードの基本と，Turbo Delphiの文字列型を解説します。そのあとで，TDAで利用するコンポーネントやコードを紹介します。

Delphiで扱う文字コードの基本

　さて，文字とは一体なんでしょうか？一般的な意味でいえば，ある特定の言葉や音を表現するために利用される記号，もしくは記号の集まりを指します。

　これらの記号をコンピュータで扱うために考え出されたのが文字コードです。文字コードは「文字をコンピュータで表すための体系」のことです。例えば，日本語の「風」という文字は，「シフトJIS」という文字コードの体系で「9597」という数値（16進数）で表します。この「9597は風」という決まりの集まりが文字コードなのです。

　文字コードの体系が1種類なら話が早いのですが，実は複数あります。ここでは，一般的に使用することの多い4種類を紹介しましょう（表1）。

表1●主な文字コード

文字コードの名前	概要
シフトJIS	Windows上でよく利用する文字コード。日本語1文字を2バイトで表す場合がほとんど
EUC	UNIX上でよく利用する文字コード。日本語1文字を2バイトで表す場合がほとんど
Unicode	日本語だけでなく，ほかの言語も統一して利用できることを目的に作られた文字コード。Windows上での実装では日本語1文字を2バイトで表す
ASCII	英文を表現するための文字コード。1文字を7ビットで表す

　まず，先ほど例を挙げたシフトJISです。日本語のWindows上のファイルや画面では通常，このシフトJISを利用します＊1。Delphiでも多くの場合，日本語の文字をシフトJISで表現しています。この文字コードは，「半角カナ」と呼ぶ特殊な文字を除いて，日本語1文字を2バイトで表します。

　文字コードの二つ目は「EUC」です。Extended Unix Codeの略で，UNIX環境で一般的に使用されています＊2。EUCも日本語は2バイトで表現します。

　三つ目は「Unicode」です。日本語に限らず，中国語や韓国語など，世界中の様々な言語で利用される文字を，一つの文字コードで表してしまおうという壮大な試みを基に作られました。このような文字コードがあれば，あるプログラムを複数の国で使うときに，移植の手間が減って便利です。

　しかし残念ながら，現在のUnicodeにはいくつかの問題があり，完全無欠の文字コードとはいえません。現在Unicodeは，Webなどネットワークに関連するプログラムでよく利用されています。WindowsにおけるUnicodeの実装では，1文字を2バイトで表現します。

　最後は「ASCII」です。American Standard Code for Information Interchangeの略で，主に英語環境で使用します。一つの文字を7ビットで表し，アルファベットや数字，記号など基本的な文字セットを備えています。日本語の文字は表現できません。

　シフトJISやUnicodeなどASCII以外の文字コードは，ASCIIで使用していない8ビット目（$80番目以降）を使ったASCIIコードの拡張として実装されています。つまり，上で紹介した日本語を表現できる三つの文字コードでは，英数字や記号はすべてASCIIコード互換です。

　これら三つの文字コードは，どれも日本語を表すために2バイト以上を使用します。ASCIIのように1バイト（正確には1バイト以下）で表現できる文字を「SBCS（Single Byte Character Set）」，シフトJISやUnicodeなどのように2バイト以上を使用する文字を「MBCS（Multi Byte Character Set）」といいます＊3。

　以上をまとめると，

・日本語Windows上では「シフトJIS」が一般的
・シフトJISでは，日本語1文字を2バイトで表現する
・シフトJISの英数字はASCII互換で，1バイトで表現する
となります。