Page tree
Skip to end of metadata
Go to start of metadata

 物理的な量を測る場合,測定の道具を使うことにより正確に測ることができます.例えば鉛筆の長さ(約18 cm)を測る場合,物差しを当てることにより0.5 mm程度の誤差で測れます.しかし物差しがなくても,大勢の人にその鉛筆を見せて,その長さは何cmかと尋ねれば,個々の測定値はばらつきが大きく,正しい値の前後1 cm程度に広がるでしょうが,みんなの答えを平均すれば物理量に近い値が得られるでしょう.いわば人間が測定器になる訳です.
 音声品質や画像品質,好ましい画面サイズ,果てはテレビ会議の満足度,といった測定対象は,物理的に測る道具がありませんので,人間の主観を尋ねて定量化します.この分野の学問は計量心理学と呼ばれます[5-1].
 一般的な主観評価実験は,実験参加者に刺激を与え,それに対する反応を5段階の尺度で答えて貰います.その評点とカテゴリーを図5-1に示します[5-2][5-3].実験目的により品質尺度が適切か,妨害尺度が適切かを選びます.システムの劣化が分かるか否かの境目である評点4.5の刺激は検知限界と呼ばれ,放送などハイエンド・アプリケーションの設計目標になります.一方,システムの劣化はわかるが邪魔になるかならないかの境目である評点3.5の刺激は実用限界と呼ばれ,テレビ会議など通信サービスではこちらを設計目標とするのが普通です.勿論,品質は良いに越したことはありませんが,システムの実際的な実現性に配慮し,放送ほどは高い目標設定にしていません.

 

図5-1 品質評価主観評価試験のカテゴリー尺度

一般的な品質評価試験に用いる5段階の評点とカテゴリーの関係です.品質の良し悪し(例えば帯域を変えたときの音声あるいは映像品質)を測定する品質尺度と,妨害の程度(例えば元の信号に加わった雑音や歪み)を測定する妨害尺度が目的によって使い分けられます.

 

 上記は刺激が単一の場合の実験ですが,符号化結果画像を評価する場合のように原画との差を評価した方がよい場合もあります.このときは図5-2に示すような尺度を用います[5-2][5-3].左は二つの刺激を7段階で評価する場合の尺度,右は二つの刺激を交互に提示して実験参加者にはどちらがオリジナルであるかは告げず,連続した尺度上にマークして貰う実験の尺度です.後者は二重刺激連続品質尺度(DSCQS: Double-Stimulus Continuous Quality-Scale)法と呼ばれていて,最近の映像符号化結果の評価に適用されています.MPEG-2の映像品質評価試験の実施例が文献[5-4]に記されています.

 

図5-2 品質評価主観評価試験のカテゴリー尺度(二重刺激の場合)

実験対象の品質劣化が小さいときには,比較によって測定します.二つの刺激に対する実験参加者の反応を見ることから,二重刺激法と呼ばれています.オリジナルと比較することで,より正確な測定ができます.実験目的によって,オリジナルは実験参加者に告げる場合もあれば,伏せる場合もあります.a)は二重品質連続尺度(DSCQS)で実験参加者は線上でアナログ的に評価値をマークします.b)は片方がもう一方に対し品質がどうであったかを数値で答えます.

 

 このほか,音声品質の評価で,わずかの劣化しかない場合の評価方法はITU-R BS.1116-2[5-5]に規定されていて,三重刺激が用いられます.アンカーと呼ばれる基準信号(A),テストすべき劣化のある信号(B or C),隠された基準信号(C or B,内容はAと同一)が同時に得られるようにし,実験参加者はAとB,AとCを比較して,図5-1の妨害尺度で評価します.BとCは実験の都度ランダムに入れ替えます.
 映像品質評価技術の最新動向は文献[5-6]に解説されています.

  • No labels