VTVジャパン テレビ会議教科書

テレビ会議教科書 VTVジャパン株式会社

ホーム / 6. メディア符号化 / 6.2 音声符号化 / 6.2.3 音声符号化標準

6.2.3 音声符号化標準

 音声符号化標準は私的なものも含めれば膨大な数があります.ここではITU-T,MPEG,IETF (Internet Engineering Task Force)の国際標準化機関で制定した標準を取り上げます[6-20].図6-16はITU-Tで作った標準の各々について,符号化対象とする音声帯域幅,適用技術と符号化ビットレートを示しています.電話信号を64 kbit/sで符号化するG.711を皮切りに,一つは低ビットレート化,もう一つは広帯域化・高品質化の拡張が行われてきました.

図6-16 ITU-Tの音声符号化標準
図6-16 ITU-Tの音声符号化標準

ITU-T勧告では音声符号化にG.7xxの番号が割り振られています.特定の音声周波数帯域に対して標準が作られています.技術(備考)欄は,それぞれの標準に適用されている代表的な技術を示します.

 低ビットレート化の流れは,移動網のような帯域資源が限られたネットワークで電話音声を送るためと,IP網の上で展開するVoIP (Voice over IP,IP電話)では当初はこちらも帯域資源が限られていたことから生じました.ただし,現在では移動網,IP網双方とも広帯域化が進んでいて,低ビットレート符号化の必要性は小さくなってきました.象徴的出来事はITU-Tで進められていた4 kbit/s符号化のプロジェクトが中断されたことで,理由の一つはそのような低ビットレート符号化の適用領域が疑問視されたことです(主たる中断の理由は対立する提案の間で折り合いがつかなかったことですが・・・).
 一方広帯域化,高品質化の流れは,テレビ会議のような応用で必要とされたことから生じました.当初の7 kHz広帯域から14 kHz超広帯域,さらには21 kHzフルバンドがテレビ会議,テレプレゼンスのシステムで使われるようになってきました.最近ではスマホなどの移動端末でも3GPP AMR-WB (3rd Generation Partnership Project Adaptive Multi-Rate - WideBand,ITU-T G.722.2)[6-21]広帯域音声が使われています.
 MPEGとIETFの標準を図6-17に示します.MPEGでは放送や蓄積メディアに適用するフルバンド高品質音声の符号化が主な作業対象です(ただし,MPEG-4では低ビットレートの音声符号化も含まれています).IETFではインターネットでの利用に適合した音声符号化標準iLBC (Internet Low Bit rate Codec),OPUSを作っています.

図6-17 MPEGとIETFの音声符号化標準
図6-17 MPEGとIETFの音声符号化標準

MPEGの音声符号化標準は,主に蓄積,放送用途を目的に,広帯域,高品質領域の音声符号化標準です.IETFではインターネットでの利用のための音声符号化を定義しています.

 音声符号化標準成立の時間的流れを図6-18に示します.最初の音声符号化標準ITU-T G.711から次の標準G.722までには16年間の空白があります.第2.3節で触れましたように,1980年代半ばにネットワークも端末もアナログからディジタルへの変革が起き,それ以降音声符号化の多彩な標準化作業が行われて来ました.それまでは通信サービスの主力は古典的な電話で,しかもネットワークの経済化のためにディジタル伝送技術が導入されたことが,音声符号化標準としてG.711があれば足りた理由です.

図6-18 音声符号化標準初版成立の時期
図6-18 音声符号化標準初版成立の時期

各標準化団体の標準が最初に何時作られたかを示しています.どの標準でも,機能拡張や訂正を入れた改版が行われるのが普通ですので,標準利用に際しては最新版を参照しなければなりません.

 最近の動向は,インターネット利用のサービスが展開されていることに伴い,インターネット固有の特性としてパケット損失があることや,利用できるビットレートが場所,時間に依存して変動することを考慮した階層符号化(スケーラブル符号化あるいは埋め込み形符号化)標準が作られていることです.ここでスケーラブルとは,ストリームの一部を受信しても,それなりの品質でもとの音声を再生できることを意味します.埋め込み形とは,高品質ストリームには核となるストリームが埋め込まれていて,そのうえに拡張のストリームが配置されることを意味しています.
 階層符号化の具体例としてG.711.1[6-22]の構成を図6-19に示します.全体のストリームは,核となる電話帯域の64 kbit/sストリーム(Aとする),低域拡張の16 kbit/sストリーム(Bとする),高域拡張の16 kbit/sストリーム(Cとする)の三つから成り,A(64 kbit/s)あるいはA+B(80 kbit/s)あるいはA+C(80 kbit/s)あるいはA+B+C(96 kbit/s)を送り出す,あるいはそれらを選択して受信することで品質の異なる音声の送受信ができます.

図6-19 Embedded codingの例
図6-19 Embedded codingの例

G.711を核に,低域,高域に拡張して7 kHz広帯域音声を符号化するG.711.1の場合の構成を示します.所要ビットレートはストリームの数によって64/80/96 kbit/sの選択肢があり,それに応じて再現する音声帯域が変わります.