6.2.1 音声信号の性質
1) 周波数帯域
圧縮符号化すべき音声信号の周波数帯域は,標本化周波数を決めますので符号化結果のビットレートを決める基本的パラメータです.
第3.2.1項で述べましたように,人間の耳が音として感じる周波数は,年齢にも依存しますが,低い方は200 Hz程度,高い方は20 kHz程度です.ITU-T音声符号化標準では,用途によりこの可聴範囲を図6-6に示す4クラスに分けています.
エンタテイメント音楽の用途では,CD (Compact Disc)相当のフルバンドが最低限で,多チャネル化したり,コラム6-2で紹介しますように可聴帯域外の信号も使われています.
ITU-Tの音声符号化標準は,周波数帯域の4クラスに対応して作られています.古典的な電話で使われてきた「狭帯域」,高品質電話の「広帯域」,テレビ会議でも使われる「超広帯域」,テレプレゼンスで使われる「フルバンド」です.
2) レベル分布
電話音声信号標本値は負の指数分布を示し,小さな値ほど頻度が高く,標本値が大きくなるにつれ頻度は指数関数的に減少します.この統計的性質を利用して音声のPCM化をより少ないビットで実現する方法は瞬時圧伸(companding,圧縮compressingと伸長expandingの合成語)と呼ばれ,1950年代から知られています[6-12].具体的方法は次の第6.2.2項で説明します.
オーケストラ音標本値のレベル分布を図6-7に示します.16ビット一様量子化した値の頻度を左側に,各標本値の各桁ビットが1である頻度を右側に示します.レベルはこの場合も指数分布を示し,これに応じて高位の桁が1になる頻度は,急速に落ちていることが分かります.
レベル分布が一様でないことは,冗長度を含んでいて圧縮の可能性を示唆しています.
オーケストラ音を16ビット一様量子化した結果について,左は標本値分布を示します.指数分布に従い,大きな値になるほど急速に発生頻度は減少します.右は,16ビットの各桁が1になる確率を示し,高位の桁が1になる頻度はレベルが指数分布することに対応し,急速に減少します.
3) 周波数スペクトラム
電話音声のスペクトラムは800 Hzまではほぼ平坦,それ以降1オクターブあたり10 dBの傾斜で減衰する,800 Hz以下の成分が全エネルギーの80%を占める,という特性があります[6-13].
オーケストラ音の場合の周波数スペクトラムを図6-8に示します.高域は1オクターブあたり6 dBの傾斜で減衰しています[6-14].
いずれの場合も周波数スペクトラムは高域で減衰する形で,冗長度を含んでいて圧縮の可能性を示唆しています.ランダム雑音の場合,周波数スペクトラムは平坦で,一般に圧縮は困難です.
2 kHzぐらいまでは平坦なエネルギー分布ですが,それを越えるとエネルギーは1オクターブ当たり6 dBの割合で減少し,低域通過形スペクトラムの特徴があります.
4) 可聴限界
この項目と次の項目は,音声信号自身の性質と言うよりは,それを聞く人間の耳の特性に関わります.圧縮符号化の視点では,人間の耳に聞こえないような符号化雑音,符号化歪みは許容されますので,積極的に利用されます.
人間の耳が聞き取れる音の最小レベルは,周波数毎に第4.1節の図4-1に等ラウドネス曲線として示されています.これを別の形で図6-9に示します[6-15].最小可聴限界を越えない雑音や歪みは,符号化的にはないのに等しく扱うことができます.
5) マスキング効果
ある周波数の信号音に対し,その近傍に存在する小さな音は,人間の耳には聴覚のマスキング効果により,聞こえなくなります.その様子を図6-10に示します[6-15].信号音はマスカー(masker),その周辺でマスキング効果により聞こえなくなる音はマスキー(maskee)と呼ばれます.マスカー信号に対し雑音の周波数が離れるほどマスキング効果で聞こえなくなるレベルは下がり,効果の及ぶ範囲は臨界帯域と呼ばれます.臨界帯域は信号音が1 kHz以下では100 Hz,1 kHz以上ではマスカーの周波数に比例します.