VTVジャパン テレビ会議教科書

テレビ会議教科書 VTVジャパン株式会社

5.2 音声に関わる人間要因

1) 音声帯域

 テレビ会議では,電話のようにハンドセットを用いるのではなく,マイクロホンとスピーカによる音声通信が必須です.そのとき必要な音声帯域は,電話の300〜3400 Hzより広帯域でなければなりません.電話帯域の音声をスピーカから聞くと,物足りなく感じます.このことは,ラジオやテレビの放送番組中に電話からの音声が流れると明らかです.
 テレビ会議の研究が始まったのは1970年頃のことで,いまだアナログ技術の時代です.電話帯域より広帯域の音声サービスは,7.5 kHz帯域のAMラジオ放送でした.従って初期のテレビ会議システムでは,音声信号の伝送にラジオ番組用の中継伝送設備が用いられました[5-7][5-8].
 利用者の視点で,テレビ会議音声に必要とされる音声帯域を確認した実験の結果を図5-3に示します[5-9].実験参加者の90 %が評点3以上とする点を目安とすれば,250〜7000 Hzが所要帯域であることを示しています.

図5-3 テレビ会議に必要な音声帯域
図5-3 テレビ会議に必要な音声帯域

テレビ会議の環境で,音声信号に高域通過フィルタと低域通過フィルタを加え,それらの遮断周波数を変えて音声品質を尋ねた主観評価実験の結果です.横軸は遮断周波数,縦軸は累積評点値のパーセンテージを示しています.低域側は250 Hz,高域側は7000 Hzの遮断周波数で評点3以上が90 %に達します.

 もう少しミクロに,言葉の聞き取りやすさに信号帯域幅がどのように影響するかの調査結果を図5-4,図5-5,図5-6に示します[5-10].図5-4は1単語,2単語連続,10単語連続の単位で,帯域幅と了解性を示しています.帯域が広いほど,文としての了解性が高くなることが読み取れます.また図5-5は,子音は同じで間の母音が異なる音のよく似た単語の例と,識別しにくい子音対を示しています.図5-6は図5-4を裏付けるスペクトラムで,"sailing"と"failing"の音の周波数スペクトラムを示し,sの音には3.3 kHzを超える周波数帯に強いエネルギーがあり,伝送帯域を3.3 kHz帯域に制限するとこのエネルギーが耳に届かなくなって,結果としてsailingとfailingの違いを聞き取りにくくしていることを示しています.実際には3.3 kHz帯域であっても両者が正しく聞き取れている場合もありますが,文脈の中で判断して正しく聞き取っているものと考えられます.

図5-4 帯域幅と言葉の了解性
図5-4 帯域幅と言葉の了解性

周波数帯域幅を変えて,発せられた単語あるいはその連なりがどのように聞こえたかを尋ねたときの,正答率を示しています.1単語より2単語の連なりが,さらに10単語の連なりが聞き取りにくくなり,いずれも周波数帯域幅が広くなるほど正答率が上がります.正答率が飽和し始めるのは,1単語では6 kHz帯域から,2単語では8 kHz帯域から,10単語では10 kHz帯域からとなっています.

図5-5 聞き取りにくい単語群と子音対
図5-5 聞き取りにくい単語群と子音対

同じ子音に挟まれた母音が異なる英単語は,単語を聞いただけでは識別が困難です.また英語の子音で識別しにくい組み合わせがあります.これらの例を示しています.注) "yold"は原典では"yo"となっていますが,誤植と判断しこの図では訂正しています.

図5-6 sailingとfailingの周波数スペクトラム
図5-6 "sailing"と"failing"の周波数スペクトラム

"s"や"f"の子音には3 kHzから18 kHzの間にも少なからずエネルギーがあり,これが電話のような狭帯域回線で送ると失われてしまいますので,両者の識別ができなくなります.快適な会話には,広帯域の伝送回線を必要とします.

 これらを総合すると,テレビ会議音声には少なくとも7 kHz以上,できれば9 kHz以上の帯域が必要とわかります.

2) 音量

 人間の耳は極めて高性能で,図4-1(第4.1節)で示しましたように小さな音から大きな音まで100 dBを超える範囲を聞き取ることができます.しかし小さな音や大きな音ではテレビ会議を快適に進めることはできません.
 そこで,模擬的なテレビ会議をしながら,受話音量を変えて実験参加者の反応を尋ねた結果を図5-7に示します[5-9].横軸は音圧で,実験の都合上図4-2(第4.1節)の重み付けフィルタC特性で測定したdBCの値を示しています.縦軸は音量が適当,やや小,やや大のカテゴリーが選ばれた比率を示します.

図5-7 テレビ会議の快適音量
図5-7 テレビ会議の快適音量

音量が「適当」と「やや小」が拮抗するのは56 dBC,「適当」と「やや大」が拮抗するのは67 dBCで,11 dBの許容範囲があります.

 この結果から50%以上の人が適当と評価する受話音圧は低い方が56 dBC,高い方が67 dBCで11 dBの許容範囲があります.
 この実験が行われた1980年頃は,まだ音響エコーキャンセラが実用になる前で,受話音圧65 dBC以上ではハウリング防止のため音声スイッチ(話している側の受信回路に数dBの損失を入れ一巡利得を下げる)が用いられました.当時のテレビ会議利用者からよく聞かれた不満は音が小さい,ということで,第2.3.9項で述べましたように,受話音量を上げようとするとハウリングを生じるため,抑えざるをえなかったことが理由です.現在では,音響エコーキャンセラの利用により,安心して受話音量を上がることができ,許容範囲も11 dBと広いので,大まかな調整で運用できるようになりました.

3) 遅延時間

 テレビ会議システムによる会話に際し,音声信号の伝送経路に遅延があると,話しにくかったり,会話がぎくしゃくした感じになります.典型的な例は,テレビ番組で戦争の起きている現場などから中継する場面です.レポータとスタジオとのやりとりは,衛星を用いた通信しか手段がなく,場合によっては二つの衛星回線を接続する場合もありますので,とても話しづらそうに見えます.20世紀後半の国際電話も衛星回線にあたる場合があり,この遅延を実感することができました.
 実際に衛星回線を遅延の手段として用いた通話実験の結果を図5-8に示します[5-9][5-11].1979年に行われた実験で,当時は長時間の遅延を発生させる手段が入手しにくく,片道250 msの遅れを生じる静止実験衛星を遅延回路として用いる贅沢な実験です.片側回線に衛星,両側回線とも衛星とすることで,遅延時間を変えています.テレビ会議の状況で,実験参加者にはテーマを変えて会話の後,遅延の影響を評価して貰います.テーマは"やり取りの速さ/やり取りの頻度"の組み合わせが変わるように選んで,"遅い/小さい"テーマ討論,"遅い/大きい"意見交換,"速い/小さい"説明,"速い/大きい"照合です.

図5-8 遅延時間の会話に及ぼす影響
図5-8 遅延時間の会話に及ぼす影響

横軸は一巡遅延時間を,縦軸は会話に対する妨害の程度を示しています.妨害は会話の性質に依存し,やり取りの速さや頻度に応じて500 msでも許容される場合もあれば,250 msで妨害の著しい場合もあります.遅延量が3点の測定結果しかありませんが,勧告G.114が示す片道150 ms(往復300 ms)の遅延であれば,多くの用途に満足できることを示唆しています.

 図5-8から,遅延が増えると会話の妨害になる,しかし妨害度は会話の内容に依存し,やり取りの速さ,頻度が大きいほど妨害は大きくなることがわかります.
 現代では,遅延の要因は電気信号の伝送時間(光ファイバーで10,000 km伝送するには50 ms)より,端末における信号処理,パケット化処理,パケット転送遅延などが支配的です.
勧告ITU-T G.114[5-12]では,片道のmouth-to-ear遅延(口から発せられて相手の耳に届くまでの時間,遅延要因は問わない,またエコーなど他の品質劣化要因は存在しない)が通話に及ぼす影響を図5-9のように規定しています.ネットワークの設計には400 msを超える片道遅延は避けるべきとしています.また遅延時間が150 msを超えると品質劣化に気付き始めることがわかります.もし150 ms以下のmouth-to-ear遅延が確保できるなら,ほとんどのアプリケーションで満足できる,としています.勧告G.114はもともと電話ネットワークの設計のために制定された標準ですが,テレビ電話やテレビ会議のように映像が付随する場合であっても同様の結果になることが知られています[5-13].

図5-9 勧告G.114が定める遅延が通話品質に及ぼす影響
図5-9 勧告G.114が定める遅延が通話品質に及ぼす影響

エコーのない純粋な遅延だけの場合の影響を示しています.横軸は口から出た音が相手の耳に届くまでの片道遅延時間です.縦軸は通話品質を表し,左側はE-modelによるR評価値を,右側は利用者の感じる満足度の尺度を表しています.ここでE-modelとは,通話品質を求めるモデルで,端末要因,ネットワーク要因,環境要因などに関する21の入力パラメータがあり,出力指標であるR値はこれらのパラメータの関数として表現されます[5-14].R値は多様な品質劣化要因がある場合の総合的な通話品質を表します.

 テレビ会議は双方向通信であることから,図5-10に示すように,音声通話系はループになっています.このため,左側の部屋で話した声は右側の部屋に届き,その声がマイクロホンで拾われて左側の部屋に戻ってきます.左側の送話者は自分の発した声A以外に戻って来たエコーAechoを耳にすることになり,話しづらくなります.このエコー妨害は送話者エコー(Talker echo)と呼ばれます.
 一方,右側の受話者側でも,左側からの直接音A'以外に,Aechoが左側のマイクロホンで拾われ戻ってくるAecho'を耳にすることになり,聞きづらくなります.このエコー妨害は受話者エコー(Listener echo)と呼ばれます.一般に受話者エコーは二つの会議室のスピーカ・マイクロホン間音響結合を経ることになるので減衰が大きく,問題になりません.

図5-10 エコー妨害
図5-10 エコー妨害

 エコーAechoはループを一巡する間に遅れて届き,一巡遅延時間が数msのときは単に音量の変化として感じられますが,数十ms以上になると,明確なエコーとして聞こえ[5-15],思わず話すのを止めようとするようになってしまいます.
 送話者エコー妨害は,図5-11に示しますように,エコーの大きさと一巡遅延時間に依存します[5-16].ここで縦軸はエコーの損失量を表していて,上に行くほどエコーは小さく聞こえることになります.通常の設計目標は"Acceptable"以上で,例外的な場合に"Limiting case"まで適用されます.
 現在では音響エコーキャンセラの使用により,エコーのループ損失を十分大きくできるようになりましたので,エコー妨害の問題は事実上解消したと言えます.

図5-11 送話者エコーの許容値
図5-11 送話者エコーの許容値

横軸は片道の伝送遅延を,縦軸TELR(Talker echo loudness rating,ここでloudnessは耳に感じる音の大きさのこと)はループの伝送損失に相当する量を示しています.往復の遅延が20 msの場合に比べ300 msの場合では25 dB余分にエコーを抑えなければならないことを示しています.