3.3.2 MCUにおける音声処理
マルチポイントテレビ会議では,参加拠点のいずれから発言があっても直ちに残りの全拠点に伝わるようにすることで,実際の会議に近づけられます.そこでMCUでは全拠点からの音声を合成し配信します.音声信号は,信号電流を加算することで合成できます.これは映像信号と異なる点で,映像の場合は信号電流を足し合わせると他重像(二重像,三重像,・・・)として再現され,役に立ちません.MCUの音声処理を図3-15に示します.
MCUでは全ての拠点からの音声を加算し,各端末に配信して,発言があれば直ちに全ての拠点で聞こえるようにします.その際,自らの音声はMCUで加算して戻すとエコーやハウリングになりますので,加算から除きます.すなわち(n-1)加算を行います.そのほか,非発言拠点からの騒音を抑制したり,あるいは抑制に伴う静寂の不自然さを補うコンフォートノイズ付加が必要になる場合があります.
ここで重要な点は,MCUに送出された自らの音声を他拠点の音声に加算するとハウリングやエコーになってしまいますので,(n-1)加算処理を行うことです.図3-15では,端末5に届ける合成音声は端末1〜4からの音声を加算しています.このような(n-1)加算処理結果は送出先毎に異なります.
図3-15では省略されていますが,端末からの音声は圧縮符号化されていますので,MCUではそれを復号し直線PCM (Pulse Code Modulation)信号に戻して加算します.加算結果は再び圧縮符号化されて端末に配信されます.
音声加算に際し考慮しなければならないのは,例え発言しない端末からの音声であっても空調音や会議室外からの環境騒音を含んでいることです.このような雑音が沢山の拠点から届き加算されると許容できないレベルに達することがあります.このため,参加拠点数が増えるとMCUでは発言していない拠点の音声を抑圧することが必要です.逆に全てを抑圧すると静かになり過ぎ,不自然になってしまいます.このようなときは図3-16で説明する人工的なcomfort noise(コンフォートノイズ,文字通りは快適さをもたらす雑音)を加えることも必要になります.