ジャンル:かな漢字変換 作者:NEC,Canna Project
ライセンス:MIT URL: http://canna.sourceforge.jp/
単語を登録する
Cannaではユーザーごとに独自のユーザー辞書を利用できる。これにより,ユーザーが他ユーザーの使い勝手を気にすることなく,自在に単語を辞書登録できる。
ユーザー辞書を用意するには,まずユーザー辞書用のファイルを作成する。
$ mkdic user
次に,Cannaの設定ファイルを変更する。ホーム・ディレクトリにある「.canna」ファイルをテキスト・エディタに読み込み,「use-dictionary」を探し出して,「:user "user"」を追加する(図3[拡大表示])。
ユーザー辞書への単語登録をする際には,[F1]キーを押してCannaのメニューを表示させる。しかし,GNOMEやKDEを利用している場合は[F1]キーを押すとヘルプが起動してしまう。そこで,[F2]キーでメニューが表示されるように設定を変更する。「.canna」ファイルを編集して「(global-set-key "\F1" 'extend-mode)」を探し出し,図3のように変える。
設定できたら,ログアウトするなどしてから,X WIndow Systemを再起動する。これで準備は完了である。
実際に,ユーザー辞書に単語を登録してみよう。例えば「首途八幡宮(かどではちまんぐう)」を登録してみる。テキスト・エディタなどを起動して,シフト・キーとスペース・キーを同時に押し,Cannaの入力モードにする。次に,[F2]キーを押してメニューを表示する。「4単語登録」,「1単語登録」と順に選択する。「単語?」と聞かれたら,「首途八幡宮」と入力し[Enter]キーを押す*1。「読み?」と聞かれたら「かどではちまんぐう」と入力して[Enter]キーを押す(写真1[拡大表示])。次に,登録する品詞を聞かれる。「首途八幡宮」は地名なので「固有名詞」を選択する。いくつか質問してもよいか尋ねてくるので「y」を押し,「首途八幡宮は地名ですか?」と尋ねられたら「y」を押す。最後に,登録するユーザー辞書「user」を選択すれば登録完了である。
試しに,「かどではちまんぐう」と入力して変換をすると,「首途八幡宮」が候補に表れるようになる。
ユーザー辞書をコンバートする
Windows上でMS-IMEやジャストシステムのATOKなどを使っていたユーザーがLinuxに移行してCannaを使うケースでは,MS-IMEやATOKなどにユーザー登録しておいた辞書情報をCannaでも利用できると便利である。そこで,MS-IMEやATOKのユーザー辞書などをCannaに持ってこよう。
まずは,MS-IMEやATOKの辞書データをテキスト・ファイルとして出力する。Microsoft IME 2002の場合は,MS-IMEのツール・バーにある「ツール」ボタンをクリックし,「辞書ツール」を選択する。すると辞書ツール・ウィンドウが開く(写真2[拡大表示])。次にメニューから[一覧の出力]を選択し,保存するテキスト・ファイルを指定して[開く]ボタンをクリックすると,辞書がテキスト・ファイルに変換される。
また,ATOK16の場合は,ATOKのツール・バーにある[メニュー]ボタンを押して,[辞書メンテナンス]-[辞書ユーティリティ]を選択する。するとATOK16辞書ユーティリティ・ウィンドウが開く(写真3[拡大表示])。次に最上段にある「一覧出力」ボタンを押す。「ATOK辞書」で出力する辞書を選択する。「標準辞書セット」では「ATOK16標準辞書」や「ATOK16トレンド辞書」などの辞書データを出力する。「出力ファイル」には変換したデータを書き込むファイルを指定する。種類では出力する辞書の種類にチェックする。「登録単語」はユーザーが登録した辞書,「システム単語」はATOKに付録している辞書データ,「自動登録単語」はATOKが学習して自動的に登録した単語辞書だ。最後に[実行]ボタンをクリックすると辞書がテキスト・ファイルに変換される。
次に,得られたテキスト・ファイルをCannaの辞書に合う形式に変換する。IMEおよびATOKから出力した,辞書のテキスト・ファイルは,各行に「読み」,「単語」,「品詞」の情報がタブで区切られて列挙されている。それに対しCannaでは「読み」,「品詞」,「単語」の順に,スペース区切りで記述される必要がある。各行をCannaに対応した順番に並び替えるだけでなく,漢字変換ソフトによって品詞の記述方法も異なるため(表3[拡大表示]),その補正も必要だ。さらに,ATOKの出力ファイルには行末に「$」や「*」といった記号が付く場合があるため,それを取り除く必要もある。
本誌Webページの補足欄に,IMEおよびATOK用辞書の変換スクリプトを用意した。必要なスクリプトをダウンロードして,使っていただきたい。
例えば,MS-IMEから出力したテキスト・ファイル「ime.txt」を変換するには,
$ nkf -e -Lu ime.txt > ime.euc.txt
$ ./ime2canna.pl ime.euc.txt > canna.t
と入力する。ATOKから出力したテキスト・ファイル「atok.txt」を変換するには,
$ nkf -e -Lu atok.txt > atok.euc.txt
$ ./atok2canna.pl atok.euc.txt > canna.t
と入力する。
次に,変換結果をCannaの辞書に登録する。Cannaの辞書は大きく分けて全ユーザーが利用できるシステム辞書と各ユーザーのみが利用でき,単語の登録を自由に行えるユーザー辞書がある。ここでは,ユーザー辞書に変換した辞書を登録することにする。
まず,次のように入力して,ユーザー辞書が存在するかを確かめる。
$ lsdic
何も表示されない場合は,ユーザー辞書がないので,前述した「単語を登録する」を参照してユーザー辞書を作成しておく。
ユーザー辞書に登録するには,例えばユーザー辞書名が「user」ならば,
$ addwords user < canna.t
と入力する。登録確認のため,
$ catdic user
と入力すれば,登録されている単語が一覧表示される。