ページ ツリー
メタデータの末尾にスキップ
メタデータの先頭に移動

1) 視線の一致 〜カメラ位置〜

 テレビ電話では,対話する相手の像を見ながら,同時にその様子がカメラで撮影されます.面談の場合,通常は相手に向き合って話し,そのとき投げかける視線の方向がメッセージになります.テレビ電話機設計の最初にぶつかる問題は,このような状況をテレビ電話でどのように再現するかです.具体的にはディスプレイとカメラをどう配置すればよいかです.
 図5-12は,テレビ電話のパイオニアである米国AT&Tベル電話研究所の機関誌BSTJ (Bell System Technical Journal)から引用したものです[5-17].基本的には二つのアプローチがあり,ハーフミラーを使って完全に視線一致をはかるか(図5-12 a)),ディスプレイとカメラを近づけて,視線のずれをできるだけ小さくし実用的な範囲に収めるか(図5-12 b))です.端末装置構成の点からは,ハーフミラー方式は相手画像が奥まって見える,カメラが引っ込んでしまうので視野が限られる,光学的経路を確保するため装置が大柄になる,などの難点があります.一方,図5-12 b)のオープン・ディスプレイ方式は,装置をコンパクトにできるため,現在ほとんどのテレビ電話,テレビ会議端末で採用されていますが,利用者が意識してカメラを見ない限り,原理的に必ず視線のずれを生じます.

 

図5-12 カメラ位置--視線のずれ

テレビ電話では,ディスプレイに表示される相手画像を見ながら話す利用者がカメラで撮像されます.そのとき,面談のときのように視線の一致が得られるようにしなければなりません.物理的に視線を一致させるにはハーフミラーを用いてディスプレイとカメラの視軸を合わせます.端末装置のコンパクトな実現にはカメラとディスプレイを近づけて配置し,視線のずれを許容範囲に収めるアプローチを取ります.

 

 ハーフミラー方式は,第2.3.2項で述べましたように,日本では1937年に試みられていますし,その後も何度か登場しました.二つの例を図5-13図5-14に示します[5-18][5-19].前者はテレビ電話の例,後者はテレビ会議(テレプレゼンス)の例です.余談ですが,テレビのスタジオでは同様の技術を図5-15に示すテレプロンプタとして使っています[5-20].

 

図5-13 ハーフミラーを使った視線一致テレビ電話の例

2004年のCeBIT展示会に出されたテレビ電話です.図5-12 a)と同じ仕組みです.

 

図5-14 ハーフミラーを使った視線一致テレビ会議の例

2005年に現れたテレプレゼンス・システムでプロジェクターで等身大表示を,ハーフミラーで視線一致を図っています.

 

図5-15 テレビスタジオで使われるテレプロンプタ

ディスプレイに表示されるニュース原稿の先にカメラが置かれ,視聴者を見ながらニュース・キャスターが語りかけている感じにできています.

 

 オープン・ディスプレイ方式では,カメラをどこに置き,カメラとディスプレイをどれだけ近づければよいでしょうか.利用者が支障を感じない範囲であれば視線のずれがゼロでなくても構わない,というのが工学のアプローチです.
 この問題の先駆的研究は,NECの佐藤利喜夫氏ほかによりなされました[5-21].人物の肩上像を視距離1 mの位置に表示し,視線ずれの角度を変えて不自然さを尋ねる主観評価実験が行われました.
 検知限(評点1.5)と許容限(評点2.5)の測定結果を図5-16に示します.カメラがディスプレイの上に置かれた場合は視線ずれの許容範囲が広く,次は下,左右は最も厳しい,という興味深い結果です.すなわち人間の感じ方には方向性があるということです.定量的には,検知限は方向によらず3度,許容限は上に12度,下に8度,左右では4.5度となっています.

 

図5-16 佐藤ほかによる視線ずれの評価実験結果

カメラ位置を変えて撮像した画像を示し,視線ずれによる不自然さを評価した実験結果です.用いられた評価カテゴリは次の3段階です.
  1 -- 不自然さが感じられない
  2 -- 不自然さは感じられるが映像電話(筆者注:テレビ電話のこと)として許容される
  3 -- 映像電話として許容されない

 

 視線ずれを9度にして撮影した人物像を図5-17に示します.カメラ位置が上の場合は許容限内であるのに対し,下の場合は許容限を少し越えている,左右の場合は許容できないというNECデータと符合しています.カメラ位置が上であればうつむき加減に映り,謙虚な印象を与えて受け入れられるものと考えられます.

 

図5-17 視差9度のカメラ位置で得られる画像

視線のずれを9度に固定し,その見え方を例示しています.中央は比較のため視線のずれがない場合で,その次に自然なのはカメラ位置が上の場合であることが見て取れます.

 

 テレビ会議ではテレビ電話より視距離が長くなる,ディスプレイが大きくなるということはありますが,視線のずれを角度で表せば図5-16の結果が適用できるはずです.スプリット・スクリーン表示(第2.3.5項の図2-11)で6人を収容する初期のテレビ会議システム設計に際し,視線ずれの問題が実験され,下方向については視距離が長いので視線のずれは9度程度で十分許容限に入る,左右方向については6人が横一列に表示されるので視差が最悪20度程度になり不自然だがしかし許容できる,とされています[5-7].テレビ電話の場合と少し異なる結果です.このテレビ会議システムでは3人を1画面に表示するため,テレビ電話よりは参加者像が小さく表示され視距離も長いので細部が見えにくい状況となって視線のずれの影響は緩和されると考えられています.
 この視線のずれについて興味深い観察結果も報告されています[5-22].テレビ会議で表示される人物像はいわゆるカメラ目線ではなく,うつむき加減に見えます.いつもテレビ会議を使っている利用者にとっては,むしろこれが自然な風景で,カメラ目線ではかえってわざとらしく不自然に感じてしまう,ということです.テレビ会議システムの特性が不完全であっても,テレビ会議にはそれを補って余りあるメリットがあって利用し続けられていることを反映しています.

2) テレビ電話の画面サイズ

 テレビ電話端末装置は机上に設置して使うことが想定されていますので,視距離を1 mとし,肩上像に対し画面サイズと表示画像の走査線数を変えて得られた好ましさの評価結果を図5-18に示します[2-25][5-23].テレビ電話研究開発の初期に行われた実験なので,走査線数も検討対象になっています.

 

図5-18 テレビ電話の好ましい画面サイズ

ビジネスでの使用を前提に机の上,前方1 mにテレビ電話機を置き,ディスプレイサイズと走査線数を変えて画面サイズの好ましさを評価した結果です.

 

 この場合の評価視点は,ディスプレイ上の像が対話の相手として好ましい大きさに表示されているかです.小さすぎると見えにくくなりますし,大きすぎると圧迫感を生じます.走査線数が少なくなり画面サイズが大きくなると走査線構造が目につきます.結果は走査線数525本(アナログテレビジョンの標準方式)の場合,画面高15 cmがピークとなっています.これは実物大(頭の高さは23〜24 cm)の1/2程度に相当します.
 テレビ会議の場合の印象は,下記5)で紹介しますが,この結果とは異なっています.

3) 顔を表現するに必要な画素数

 テレビ会議で表示されるのは参加者像が中心で,その顔の表示が人対人のコミュニケーションを実現するうえで鍵となります.それでは,画像からその人を識別するに必要な画素数はどれだけでしょうか.
 この問題に対する研究は1970年代初めに行われています[5-24].人の顔写真をスキャンし1024x1024画素,黒から白までの濃淡を10ビットで表してモノクロ原画を作り,これをNxNのブロックに分け,各ブロックの総画素の平均値をそのブロックの代表値とします.予備実験で代表値は8段階(3ビット)もしくは16段階(4ビット)で実験の目的には十分と判断されました.そのように処理した画像14枚と28人の名前を記した名簿を実験参加者に示し,誰であるかを識別して貰う実験を行った結果,16x16ブロックで正答率は48%,階調は3ビットでも4ビットでも影響しない,との結果になっています.さらにブロックの切れ目と画像との相対位置関係(位相)を最適に選べば,正答率は95%に向上した,とされています.
 筆者の経験した面白い展示に,アインシュタインとゴリラを並べ,上記のモザイク画像にして,何画素から両者を区別できるか,というのがありました.
 イギリスの元首相Margaret H. Thatcher女史の画像に,ブロックの大きさを変えてモザイク表示を適用した例を図5-19に示します[5-25].上記のように16x16画素でも誰だか分かること,品質的に満足できるには少なくとも128x128画素必要だということが見て取れます.

 

図5-19 画素数を変えたモザイク画像

原画像をNxNブロックに区切り,ブロック内全画素の明るさを平均した値をそのブロックの明るさとして作成したモザイク画像です.誰だか分かるには16x16画素以上必要で,品質的に満足できるには少なくとも128x128画素必要だということを示しています.

 

 顔の造作や表情について識別可能な解像度(顔の高さ当たりの画素数で表現します,物の場合はその高さ当たりの画素数)を調べた実験結果を図5-20に示します[5-26].ここで識別限界と言っているのは識別率が50%に達することを意味します.人か物の識別では8画素程度,個人の特定には13画素程度必要であるのに対し,眼の大小や小さな表情の変化の識別には50画素程度が必要と,その幅は広くなっています.識別率を90%以上にしようとすると,個人の特定には25画素程度,眼の大小の判定には160画素程度が必要となります.

 

図5-20 顔の細部を表現するに必要な画素数

顔の中の眼,鼻,口などの造作,顔の表情を識別するに必要な顔の高さ当たり画素数の実験結果です.50%の人が眼の大小や小さな表情の違いを識別できるのは50画素以上であることを示しています.

 

4) テレビ会議参加者の表示方法

 現在では,テレビ放送を始め個人で撮影する動画も含めて映像は全てカラー化されています.しかし,テレビ会議開発が始められた1970年前後では,利用できる撮像・表示機器,伝送機器,照明環境の点から未だモノクロ映像に限られていました.一般にカラー化の効果として,画像が写実的になる,画像内容の判断が早い,鮮鋭度が増す,立体感が増す,などのことが言われています[5-27].
 テレビ会議の人間要因面での興味は,カラー化するとどれだけ利用者の印象がよくなるかです.そこで,モノクロとカラーのテレビ会議システムを用意し,模擬的な会議をする実験が行われました.その結果カラー化により,会議のし易さ,鮮明さの点で有意な評点向上の見られることが実証されました[5-28].
 テレビ会議システムの表示画面は,参加者を表示する際の限られた資源と言えます.これをいかに有効に活用するかが問題です.アナログテレビのディスプレイに4人を表示する方法を変え,表示の好ましさを評価した実験の方法と結果を図5-21に示します[5-28].表示方法は,4人一列の全景表示,その上下各1/4をマスクした表示,2人ずつの二階建て表示,1人ずつの田の字形合成表示の4種類で,それぞれ3段階のズームをして,合計12種類の画面を評価して貰いました.表示方法の違いは,表示画面高に対する顔の高さの比で正規化しています.この結果から,顔だけを大きく表示しても受け入れられないこと,すなわち人物像が大きくかつその周辺も十分に表示されることが重要なこと,顔の高さが画面高の1/5(走査線数で100本)になるあたりが最適なことが分かります.

 

図5-21 人物表示構成法の比較

4人を1画面に表示する場合について,画面の構成方法とズーム率を変え表示の好ましさを尋ねた結果です.各表示方法の下にある数字は左からズーム率が小,中,大の順番で,表示される顔の高さは画面高に対する相対値で示しています.その値で0.2付近が最適と評価されています.

 

5) テレビ会議の画面サイズ

 テレビ会議ではどのような表示画面サイズが好まれるか,見易さを評価実験した結果を図5-22に示します.表示の仕方は4人もしくは6人の全景表示(overview, 図5-21 (i)の方法)と各人を切り出し合成した表示(mixed, 図5-21 (iii)の方法)で,合計4種類です.画面サイズはCRT型が18インチと32インチ,投写型が45インチと72インチです.横軸は顔の表示高を実際の値と比較した相対値で表しています.投写型42インチ表示よりCRT型32インチ表示が常に好まれる実験結果となっていてデータにばらつきがありますが,好ましさは画面サイズとともに単調に増加する傾向にあり,実験の範囲では解像度によらず等身大まで大きく表示するのがよいことを示しています.
 なお,テレプレゼンスシステムでは,等身大表示を推奨要求条件としていて[5-29],上記実験の結果と符合します.

 

図5-22 テレビ会議の表示画面サイズ

表示画面上の顔の高さを実際の高さに対する相対値で表し横軸に,表示の見やすさを縦軸にとって両者の関係を示しています.等身大表示まで単調に評価は向上します.

 

6) 参加者表示の総合実験

 上記4)と5)では,テレビ会議参加者表示に影響する要因として,色彩の有無,画面構成方法,表示画面サイズを見てきました.それではこれらを総合して言えることは何でしょうか.
 この疑問に答えるため,色彩の有無(モノクロ,カラーの2水準),画面構成法(全景表示,合成表示の2水準),表示画面サイズ(小画面,大画面の2水準)を組み合わせた8種類の画像をスライドにし,一対比較で28個の比較データを得ることとします.さらに表示人数が2通り(4人の場合と6人の場合),視距離が3通り(5Hの場合,7Hの場合,9Hの場合)を組み合わせ6回の一対比較実験を行い168個のデータを得ます.比較すべき画像は2台のスライドプロジェクタを同期して動作させることで評価対象となる一対を同時表示します.一対比較結果は統計処理により,好ましさの心理尺度値に変換します.
 実験対象とした要因のうち色彩の有無は他の要因と無関係であるのに対し,画面構成,表示画面サイズ,表示人数,視距離にはお互いに相関があります.最初の3要素は画面上での人物像の大きさに,視距離の要素は画面を見る視角に関係します.そこで,これらを統一した変数として表示人物像の顔の高さに対する視角θを導入します.
 色彩の有無を含めた好ましさのデータ整理結果を図5-23に示します.カラーとモノクロでは明らかな差があり,視角θが大きくなるほど好ましさは増しますが0.03ラジアン(1.7度)に達すると飽和し始める結果が得られました.カラー表示でθ=0.025ラジアンの効果はモノクロでは2倍の視角0.05ラジアンにして得られる勘定です.

 

図5-23 人物像表示の好ましさと視角の関係

表示画面上の顔を見込む視角(ラジアンで表す,1ラジアン=57.3度)を,画面構成法,表示人数,視距離をまとめて表現する変数として選び,それに対する表示の好ましさの心理評価尺度値をプロットしています.色彩の有無は独立なパラメータであることから2本の曲線になっています.評価値は0.03ラジアン付近で飽和し始め,表示をカラー化する効果はモノクロ画面の表示サイズを2倍にして得られる効果と同程度です.

 

 図5-23では,顔の画面高に対する視角θが0.03ラジアン付近を境にして好ましさの様相が変化しています.このあたりでは,標準の視力を有する人であれば表示された人物像の目の開き具合や唇の厚さが分かるといった造作がはっきり見える限界となっていることが理由だと考えられます.
 この結果の考察として,図5-24に顔の高さ対画面高(顔を表現する解像度に相当する)と顔の見え方を定性的に示しています.Aは目や口の細部が認識できるレベル,Bは目や口の存在が認識できるレベル,Cは顔の輪郭が分かるレベル,Dは人間の存在が分かるレベル,に対応しています.図5-23の実験結果はAが0.03ラジアンであることを示していますが,B, C, Dの定量的な値はこの実験では未解明です.

 

図5-24 人物像表示に対する認識段階

顔の高さを見込む視角が0.03ラジアンのAは,顔の目鼻立ちが見分けられるレベル,Bでは目や口の存在が分かるレベル,Cでは顔の輪郭が分かるレベル,Dでは人間の存在が分かるレベルであることを模式的に示しています.

 

7) 対人距離

 テレビ会議で実現しているのは,離れた相手と対面して話すことなので,表示画面の大きさと共に,その位置も心理面で影響を与えます.人間を含む動物には,テリトリーの感覚が組み込まれていて,人にある距離以上近づくと拒絶反応を引き起こします.
 人と人との距離が対人コミュニケーションに及ぼす影響を研究する分野はE. T. ホールによりproxemicsと名付けられ,図5-25に示す距離分類が提起されています[5-30].親しさ加減に応じて近づくことを許される距離が異なることを示しています.
 ビジネスの関係で接する人との間は,社会距離に相当しますので,1.2 mより近い位置にディスプレイを置くのは避けた方がよいと思われます.

 

図5-25 E. T. ホールによる対人間の距離 (proxemics)

対人関係の親密さに応じ,接近が許される距離を分類しています.代表事例は次の通りです.
 ・密接距離 -- ハグする,触れる,囁く
 ・個体距離 -- 親しい友人,あるいは家族構成員との対話
 ・社会距離 -- 知り合いとの対話
 ・公衆距離 -- 公衆を前にした演説

 

 人が近づくことに関し法政大学で行われた実験を紹介します[5-31].実験参加者は中央に立ち他人が手ぶらで,あるいは携帯電話をしながら,あるいは携帯ゲームをしながら近づいてきます.数字は近づく方向を表し,1は立っている人の前方,5は後方です.そこから先に近づいては嫌だと感じられるところで実験参加者はストップをかけます.実験結果を図5-26に示します.手ぶらでも携帯電話をしながらでも,2 mが限度です.携帯ゲームをしながらの場合は1.5 mと近接が許されていますが,この場合,人というより物が近づくと見なされたのではないかと考えられます.すなわち,近づいてくる人と関係を生じる可能性で判断されているようです.
 なお,法政大学の実験の主な狙いは,図5-26で紹介したのとは逆に,実験参加者が携帯電話をしたりゲームをしている人に近づくとき,携帯電話やゲーム機という人工物が接近距離にどのような影響を及ぼすかを調べることにあります.携帯電話をしている人に近づく場合,手ぶらの場合に比べ距離を取ろうとする,という興味深い結果になっています.

 

図5-26 実験参加者が他人に近寄られたときストップをかける距離

人には他人に入り込まれたくないと感じる領域があります.この実験では,前方から近づいて来る人には2 mでストップをかける結果になっています.テレビ会議システムでは複数の人が参加することから,通常ディスプレイは2 mを越えた位置に置かれていて,適切な対人距離(社会距離)を保っていることになります.

  • ラベルがありません