携帯電話の音声品質は世代を経るごとに改善されてきた。かなり音が悪いと言われた第2世代携帯電話のPDC(personal digital cellular)ハーフレート方式のころと比べれば格段によくなっている。しかし,面と向かって話してるようだとは,とてもいえないのも確かである。

 そんな中,今年4月にNTTドコモが新しい高音質音声符号化技術を開発した。より聞き取りやすく自然で臨場感のある会話が可能だという。新技術開発の背景と,今後の実用化予定などについて,NTTドコモ総合研究所 コミュニケーションメディア研究グループ 主幹研究員の河原敏朗氏と,同じく研究主任の菊入圭氏に聞いた。





新しく高音質な音声符号化技術の開発を始めた背景を教えてください。

写真1●NTTドコモ 総合研究所の河原敏朗主幹研究員
写真1●NTTドコモ 総合研究所の河原敏朗主幹研究員
 NTTドコモでは,携帯電話の音声符号化技術として,PDCハーフレートのPSI-CELP(Pitch Synchronous Innovation CELP)から,エンハンスドフルレートで使われたCS-ACELP(conjugate-structure algebraic CELP),FOMAのAMR(adaptive multi-rate)と,その時々の利用できる帯域や端末の性能などにあわせた技術を採用してきました。

 日本の回線交換ベースの電話システムは,バックボーンにμ-lawという64kビット/秒でほぼ非圧縮のPCM符号化方式を使っています。ここで使われているμ-law PCMは,いわゆる電話帯域の3.4kHz帯域の通信に向けたものなので,ベストの音声品質がここで決まってしまいます。そのためこれまでの携帯電話用の音声符号化技術は,少ないデータ量でμ-lawの品質にいかに近づけるかという視点で開発されていました。それ以上の音質を実現しても意味がないからです。μ-lawが音声通話における音質のボトルネックになっているわけです。

 しかし,近い将来にスーパー3G,4Gといった次世代携帯電話が登場するころには,音声通話のネットワークも回線交換からIPベースのネットワークに移行していくと思われます。μ-lawのバックボーン電話網をバイパスして,端末同士がエンドツーエンドで直接IPのパケットをやり取りできるようになるでしょう。そうなれば,μ-lawというボトルネックが解消され,それ以上の音声品質が意味を持ってくるのではないかと考えたのです。その時代を見据えて,NTTドコモ総合研究所とDoCoMo Communications Laboratories USAの共同で新しい音声符号化技術の開発を行いました。

■変更履歴
写真1の説明で,「川原敏朗主幹研究員」とありましたが,正しくは「河原敏朗主幹研究員」です。お詫びして訂正します。本文は修正済みです。 [2007/05/31 18:20]

新しい符号化技術の仕組みを教えてください。

 現在の携帯電話で使われている符号化技術は,基本的にCELP(code excited linear prediction)と呼ばれる符号化技術の発展系で,簡単に説明すれば,あらかじめ人間の声のパーツをたくさん用意しておき実際の音声をそのパーツの組み合わせで再現する仕組みになっています。声そのものを送るのではなく,声の特徴を符号として送って再現することで,伝送データ量を減らすわけです。そのため声色が画一的になる傾向があり,内容は伝わっても,誰がかけてきたのか話者を識別したり,音声以外の音を送るにはあまり適していません。

 今回開発した技術は,CELPとは根本的に異なり,音声信号をそのままデジタル化する「波形符号化」を採用しています。音楽のデジタル化に使われるMP3やAACなどの仲間です。対象とする音声周波数もずっと広く,CELPベースの既存の携帯電話向け符号化方式では人間の音声を伝えるのに必要最低限な300Hz~3.4kHzまでの周波数を対象としていたのに対し,新技術では50Hz~16kHzとFMラジオより広い周波数を対象としていますから,背景音も含め音声以外の情報も伝えることが可能です。

 ただ,圧縮率が高く高音質ならばそれでいいというわけにはいきません。あくまでもメインターゲットは携帯電話の音声サービスですから,会話に支障ない程度の遅延でエンコードとデコードができること,携帯電話の処理性能で対応できる程度の演算量であることが必要です。新しいコーデックでは,現行FOMAのAMRとほぼ同等の演算量を実現しています。そういった制約の中で,人の声を自然に臨場感をもって伝えるようにチューニングしました。

音声の通信に必要なデータ量はどのくらいですか?

 可変サンプリングレートなのでデータ量も固定ではないのですが48k~64kビット/秒です。FOMAのAMRでは最大14.4kビット/秒ですから,だいたい4倍くらいでしょうか。サンプリングレートは22.05k~32kHzです。

写真2●NTTドコモ 総合研究所の菊入 圭研究主任
写真2●NTTドコモ 総合研究所の菊入 圭研究主任
 AACなどの音楽用コーデックとは異なり,人の声を効率よく伝えるための工夫をいろいろ施しています。短期間に大きく変化する人間の声の特徴に合わせてサンプリング時のフレームサイズを少し短めにしたり,フレーム内のビットの割り当てを,人の声の特徴を細かく再現できるように調整するといった具合です。

 結果として,電話サービスに十分使えるレベルの遅延と演算量に抑えつつ,音声通話においては同じ圧縮率のAACなどと同等の音質を実現できたと思っています。このくらい高音質になると,普通に会って会話するのと変わらないくらいまで,会話のストレスが減ります。

 実は,開発にあたって米国のパロアルトにあるドコモラボUSAのメンバーと遠隔会議をよくするのですが,それまで使っていたテレビ会議システムから今回のコーデックを使った音声会議システムに切り替えたところ,ストレスがとても少なくなりました。テレビ会議の「映像+音声」よりも,音声だけにもかかららず生のディスカッションをしている感じが高まりました。聞き返すこともほとんどありません。今までの音声符号化方式による通話にはかなりストレスがあったのだということが実感できましたね。これに慣れたら,以前のシステムにはちょっと戻れない世界です。