情報システム

情報システムのトピックス-PR-

転ばぬ先の文字コード入門(第5回)

フリー・ソフトを活用しよう

2001/06/29
矢沢久雄

矢沢 久雄

 これまでの連載を読んで,文字コードに関する知識が豊富になった皆さんは,文書ファイルの内容をダンプ・リストで確認したり,文字コードを変換してみたいと思われていることでしょう。前回の講座で説明したように,Visual Basicなどの開発ツールを使えば,文字コードを処理するプログラムを簡単に作成できます。ただし,もっと簡単な方法があります。それは,インターネットで無償配布されているフリー・ソフトウエア(以下フリー・ソフト)を使うことです。今回は,ベクターのWebサイトから入手できる便利なフリー・ソフトを紹介します。文字コードを取り扱うためのフリー・ソフトには,膨大な種類があります。入手先として示したURLにアクセスすれば,ここで紹介したもの以外にも,様々なフリー・ソフトが公開されていることが分かるでしょう。

図1●複数のファイルのダンプ・リストを比較できる

●ファイルのダンプ・リストを見る

名称  :狐'sバイナリエディタ for Win95/NT
動作環境:Windows 95/NT
作者  :佐川 功 氏
入手先はこちら

 「狐'sバイナリエディタ for Win95/NT」(図1[拡大表示])は,ファイルの内容を1バイトずつ16進数で表示するダンプ・リストを見るときに便利です。文字コードの種類によって,ファイルの内容がどのように異なるかを確認できます。複数のウインドウを同時に表示できるので,2つのファイルの内容を比較することもできます。バイナリ・エディタという名前が示すとおり,ファイルの内容を16進数のコードまたは文字を入力して編集(エディット)することもできます。

図2●文書ファイルを様々な文字コードに変換できる

●ファイル単位で文字コードを変換する

名称  :jconv
動作環境:Windows 95/98/NT
作者  :YUKI 氏
入手先はこちら

 「jconv」(図2[拡大表示])は,JISコード,シフトJISコード,Unicode(UTF-8,UTF-16),EUCで保存された文書ファイルを,異なる文字コードに変換できます。「Auto」を選択すれば,入力ファイルで使われている文字コードを自動的に判別することもできます。「ASCIIやJIS X 0201に対応してないじゃないか?」と思われるかもしれませんが,それらはシフトJISコードとして取り扱えばよいのです。この講座をお読みいただいた皆さんなら,お分かりのはずですよ!

図3●機種依存文字や半角カタカナを赤色で表示してくれる

●機種依存文字を見つける

名称  :Code Check
動作環境:Windows 95/98/2000
作者  :伊月めい 氏
入手先はこちら

 Webページやメールで機種依存文字や半角カタカナを使うと,それを受け取った側で文字化けが発生する可能性があります。WindowsとMac OSで,シフトJISコードの文書ファイルを交換した場合も同様です。「Code Check」(図3[拡大表示])は,文書ファイルの中から問題となる文字を見つけ出し,それを赤色で表示してくれます。「チェック項目」メニューの項目となっている「Windows 95特殊文字」,「NEC選定IBM拡張文字」,「外字」とは,シフトJISコードに含まれる可能性のある機種依存文字を分類したものです。すべての項目にチェック・マークを付けておくことをお勧めします。

図4●異なる文字コードの文書ファイルを同時に開ける

●様々な文字コードに対応したテキスト・エディタ

名称  :MultiPad
動作環境:Windows 95/98/Me/NT/2000
作者  :kes 氏
入手先はこちら

 「MultiPad」(図4[拡大表示])は,JISコード,シフトJISコード,EUCで作成された文書ファイルを編集できるテキスト・エディタです。文字コードを変換するウィザードも装備されています。テキスト・エディタとしての機能的は,Windowsのメモ帳と同程度ですが,編集機能が少しだけ優れています。

●文字と文字コードを検索できる漢字コード表

図5●「漢」という文字を検索したところ

名称  :Kanji
動作環境:Windows 95/NT
作者  :(有)プレジャースカイ
入手先はこちら

 「Kanji」(図5[拡大表示])は,文字コードから文字,または文字から文字コードを検索します。文字コードの種類は,区点コード,JISコード,シフトJISコード,Unicode,EUCに対応しています。「区点コード」とは,文字を4桁の10進数で表したもので,上位2桁を「区」,下位2桁を「点」と呼びます。「第一水準」,「第二水準」,「拡張」とは,JIS X 0208で定義されている漢字のグループを示すものです。

●おわりに

 コンピュータは,あらゆる情報を数値に置き換えて処理しています。本来数値でない情報を数値で表したものが,いわゆるコード(符号)です。文字コードは,世界中の人たちとコミュニケーションするために規格化されています。規格から外れたコードでは,正しくコミュニケーションできません。これは,他の情報の場合でも同じです。IT業界にかかわっているなら,これから取り扱おうとしている情報が,すでに規格化されたコードとなっているかどうかを確認することが大切です。自分勝手なコードを使っていると,孤立化してしまうからです。

 この講座は,今回で最終回になります。お付き合いいただきました皆さんに,心より感謝申し上げます。またお会いしましょう!

お詫び:この連載の内容に若干の間違い見つかり,公開後に本文の一部を訂正しております。ご迷惑をおかけしましたことをお詫びするとともに,ご指摘をいただきました方々に感謝申し上げます。
  • このエントリーをはてなブックマークに追加
  • Evernoteでクリップする
  • 印刷する

今週のトピックス-PR-

この記事に対するfacebookコメント

nikkeibpITpro

▲ ページトップ

CIO Computerworld

Twitterもチェック