ジャンル:かな漢字変換 作者:NEC,Canna Project 

ライセンス:MIT URL: http://canna.sourceforge.jp/

単語を登録する

 Cannaではユーザーごとに独自のユーザー辞書を利用できる。これにより,ユーザーが他ユーザーの使い勝手を気にすることなく,自在に単語を辞書登録できる。

 ユーザー辞書を用意するには,まずユーザー辞書用のファイルを作成する。

$ mkdic user

図3●ユーザー辞書の設定
「.canna」ファイルに「:user "user"」があることを確認する。また,Cannaのメニューを表示するキーを「\F1」から「\F2」に変更する。

写真1●ユーザー辞書に新しい単語を登録する
「単語」,「読み」,「品詞」の順に登録する。

写真2●Microsoft IME 2002の辞書の書き出し
ユーザー登録した単語をテキスト・ファイルに書き出せる。

写真3●ATOK16の辞書の書き出し
ユーザー登録した単語や自動学習した単語をテキスト・ファイルに書き出せる。

表3●主なCannaの品詞対応表
たとえば,MS-IMEで「名詞」はCannaでは「#T35」と表す。

 次に,Cannaの設定ファイルを変更する。ホーム・ディレクトリにある「.canna」ファイルをテキスト・エディタに読み込み,「use-dictionary」を探し出して,「:user "user"」を追加する(図3[拡大表示])。

 ユーザー辞書への単語登録をする際には,[F1]キーを押してCannaのメニューを表示させる。しかし,GNOMEやKDEを利用している場合は[F1]キーを押すとヘルプが起動してしまう。そこで,[F2]キーでメニューが表示されるように設定を変更する。「.canna」ファイルを編集して「(global-set-key "\F1" 'extend-mode)」を探し出し,図3のように変える。

 設定できたら,ログアウトするなどしてから,X WIndow Systemを再起動する。これで準備は完了である。

 実際に,ユーザー辞書に単語を登録してみよう。例えば「首途八幡宮(かどではちまんぐう)」を登録してみる。テキスト・エディタなどを起動して,シフト・キーとスペース・キーを同時に押し,Cannaの入力モードにする。次に,[F2]キーを押してメニューを表示する。「4単語登録」,「1単語登録」と順に選択する。「単語?」と聞かれたら,「首途八幡宮」と入力し[Enter]キーを押す*1。「読み?」と聞かれたら「かどではちまんぐう」と入力して[Enter]キーを押す(写真1[拡大表示])。次に,登録する品詞を聞かれる。「首途八幡宮」は地名なので「固有名詞」を選択する。いくつか質問してもよいか尋ねてくるので「y」を押し,「首途八幡宮は地名ですか?」と尋ねられたら「y」を押す。最後に,登録するユーザー辞書「user」を選択すれば登録完了である。

 試しに,「かどではちまんぐう」と入力して変換をすると,「首途八幡宮」が候補に表れるようになる。

ユーザー辞書をコンバートする

 Windows上でMS-IMEやジャストシステムのATOKなどを使っていたユーザーがLinuxに移行してCannaを使うケースでは,MS-IMEやATOKなどにユーザー登録しておいた辞書情報をCannaでも利用できると便利である。そこで,MS-IMEやATOKのユーザー辞書などをCannaに持ってこよう。

 まずは,MS-IMEやATOKの辞書データをテキスト・ファイルとして出力する。Microsoft IME 2002の場合は,MS-IMEのツール・バーにある「ツール」ボタンをクリックし,「辞書ツール」を選択する。すると辞書ツール・ウィンドウが開く(写真2[拡大表示])。次にメニューから[一覧の出力]を選択し,保存するテキスト・ファイルを指定して[開く]ボタンをクリックすると,辞書がテキスト・ファイルに変換される。

 また,ATOK16の場合は,ATOKのツール・バーにある[メニュー]ボタンを押して,[辞書メンテナンス]-[辞書ユーティリティ]を選択する。するとATOK16辞書ユーティリティ・ウィンドウが開く(写真3[拡大表示])。次に最上段にある「一覧出力」ボタンを押す。「ATOK辞書」で出力する辞書を選択する。「標準辞書セット」では「ATOK16標準辞書」や「ATOK16トレンド辞書」などの辞書データを出力する。「出力ファイル」には変換したデータを書き込むファイルを指定する。種類では出力する辞書の種類にチェックする。「登録単語」はユーザーが登録した辞書,「システム単語」はATOKに付録している辞書データ,「自動登録単語」はATOKが学習して自動的に登録した単語辞書だ。最後に[実行]ボタンをクリックすると辞書がテキスト・ファイルに変換される。

 次に,得られたテキスト・ファイルをCannaの辞書に合う形式に変換する。IMEおよびATOKから出力した,辞書のテキスト・ファイルは,各行に「読み」,「単語」,「品詞」の情報がタブで区切られて列挙されている。それに対しCannaでは「読み」,「品詞」,「単語」の順に,スペース区切りで記述される必要がある。各行をCannaに対応した順番に並び替えるだけでなく,漢字変換ソフトによって品詞の記述方法も異なるため(表3[拡大表示]),その補正も必要だ。さらに,ATOKの出力ファイルには行末に「$」や「*」といった記号が付く場合があるため,それを取り除く必要もある。

 本誌Webページの補足欄に,IMEおよびATOK用辞書の変換スクリプトを用意した。必要なスクリプトをダウンロードして,使っていただきたい。

 例えば,MS-IMEから出力したテキスト・ファイル「ime.txt」を変換するには,

$ nkf -e -Lu ime.txt > ime.euc.txt

$ ./ime2canna.pl ime.euc.txt > canna.t

と入力する。ATOKから出力したテキスト・ファイル「atok.txt」を変換するには,

$ nkf -e -Lu atok.txt > atok.euc.txt

$ ./atok2canna.pl atok.euc.txt > canna.t

と入力する。

 次に,変換結果をCannaの辞書に登録する。Cannaの辞書は大きく分けて全ユーザーが利用できるシステム辞書と各ユーザーのみが利用でき,単語の登録を自由に行えるユーザー辞書がある。ここでは,ユーザー辞書に変換した辞書を登録することにする。

 まず,次のように入力して,ユーザー辞書が存在するかを確かめる。

$ lsdic

 何も表示されない場合は,ユーザー辞書がないので,前述した「単語を登録する」を参照してユーザー辞書を作成しておく。

 ユーザー辞書に登録するには,例えばユーザー辞書名が「user」ならば,

$ addwords user < canna.t

と入力する。登録確認のため,

$ catdic user

と入力すれば,登録されている単語が一覧表示される。

(ライター 福田 和宏)


(上)に戻る