XREAL
Vision
👀

눈은 세상과 어떤 이야기를 할까?

들어가기

한번 생각해볼까요? 만약에 이 글을 보고 계시는 독자분이 산책을 하다 돌부리에 걸려 넘어졌다고 가정해봅시다. 여러분은 왜 넘어졌을까요? 여러가지 대답이 나오겠지만, 가장 많이 나오는 대답은 아마 아래와 같을 겁니다.
“돌부리를 못 봐서 넘어졌지 않았을까요?”
또 다른 이야기로, 우리가 일식을 본다고 생각해봅시다. 어떠한 종류가 되었든 개기일식이나 부분일식을 관람할때안과 전문의들 또는 과학 전문가들은 공통적으로 맨눈으로 태양을 보는 것은 위험하므로 반드시 태양 관측 안경이나 휴대용 태양 관측 장치를 사용해서 봐야한다고 당부합니다. 왜일까요?
“맨 눈으로 보면 망막이 화상을 입고, 영구손상이 발생하니까요!”
위에 적은 두가지 이야기는 눈을 통해서 외부를 인지하지 못한 사례, 눈을 고려해서 행동한 사례이고, 모두 이번 아티클의 핵심 키워드인 “눈” 에 대한 이야기 입니다. 사람은 태어난 순간부터 평생을 외부와 인터랙션하며 살아갑니다. 그러면 조금더 본질적으로 들어가서 우리는 어떻게 외부의 자극을 감지할까요?
[그림 1] (a) 인터페이스 기반 사람의 처리 과정 (Model Human Processor) [1](왼쪽), (b) 자율주행의 3요소 [2](오른쪽)
우리는 그림 1-(a) 와 같이 외부의 자극을 인지하고, 인지 처리 장치을 통해 판단하고, 손가락 등의 입력 장치를 통해 제어하는 일련의 3가지 과정을 거칩니다. 이 과정은 자율주행에서와 동일하게 센서를 통한 외부 장애물 인지, 인공지능을 활용한 판단, 자동차 장치에 가하는 제어 3단계로 구성되어 있습니다. 그럼 오늘의 주제 눈은 어디에 사용될까요? 독자분들께서 생각하신대로 우리의 눈은 외부의 자극을 인지하는데 사용하고, 2012년 한국전자통신연구원에서 발표한 글에서는 우리는 오감으로만 외부의 자극을 인지하며 전체의 77퍼를 눈을 통해서 인지한다고 합니다[3]. 하지만, 우리의 눈은 다른 감각과의 차이가 있다면 인지만 하지 않고 XR 내에서 제어를 위해서도 사용될 수 있으면서, 우리에게 무의식적으로 표현을 한다는 것입니다.
이번 아티클에서는 전반부에는 우리의 눈이 어떻게 생겼고, XR이나 UX 상에서 어떻게 중요하게 사용되는지를 이야기해볼 것입니다. 후반부에서는 눈을 쫓기 위해서 우리는 어떠한 노력을 해왔고, 어떤 노력이 필요할지에 대한 이야기를 해보고자 합니다. 아티클을 읽기 전에 눈을 여러번 깜빡이며 예열을 시켜볼까요?

눈은 어떤 걸 보고 말해줄까?

눈의 망막에는 1㎠당 약 1,000만 개에 이르는 광수용체가 존재합니다. 우리는 어떠한 카메라보다 민감하고 정밀한 센서를 가지고 있는 셈이지요[4]. 우리의 눈이 얼마나 민감하고 정밀한지 알 수 있는 이야기입니다. 그럼 우리의 눈은 어떤 구조를 가지고 있을까요?
[그림 2] 눈 해부도 (출처 : 서울아산병원 [5])
위 그림은 우리의 눈을 메디컬일러스트로 시각화한 그림으로, 우리의 눈은 매순간 놀라운 과정을 통해 세상을 바라봅니다. 빛이 투명한 각막을 통과하면서 여정이 시작됩니다. 각막은 빛을 굴절시키고, 이어서 동공이 들어오는 빛의 양을 조절합니다. 그 다음 수정체가 빛을 정확히 망막에 초점을 맞춥니다. 수정체는 보는 거리에 따라 두께를 변화시켜 초점을 조절합니다. 망막에서는 특수한 세포들이 빛을 전기 신호로 변환합니다. 간상세포는 어두운 곳에서의 시각을, 원추세포는 색상과 세부 사항을 담당합니다. 이 전기 신호는 시신경을 통해 뇌로 전달됩니다. 마지막으로, 뇌의 시각 피질에서 이 신호를 해석하여 우리가 보는 이미지가 완성됩니다. 특히 망막의 중심부인 황반은 고해상도 시각을 담당합니다. 이 모든 과정이 순식간에 일어나 우리는 실시간으로 주변 환경을 인식하게 됩니다. 그러면 위에서 살펴본 복잡한 구조의 우리 눈은 어떤 방식으로 세상과 이야기하고 있을까요?
[그림 3] 눈을 사용한 인터랙션의 예시, Gaze Path Selection (왼쪽, [6]) 과 Dwell-based Selection (오른쪽, [7])
우리의 눈은 XR 또는 PC 환경에서 입력 장치로 사용되며, 이와 관련해 세 가지 방식이 있습니다. 그 중 하나는 동공의 움직임을 기반으로 하는 '시선 경로 선택(Gaze Path Selection)' 기술입니다. 이 기술의 핵심은 동공 움직임을 추적하여 사용자가 바라본 곳의 정보를 저장하거나, 앞으로 시선이 향할 위치를 예측해 관련 정보를 미리 제공하는 것입니다. 대표적인 예로, 그림 3의 왼쪽에서 볼 수 있듯 특정 글자를 칠 때 움직이는 동공의 움직임을 예측해 최종적으로 입력할 단어를 미리 제안해주는 입력하는 시스템(EyeSwipe)이 개발된 바 있습니다[6]. 또한 마이크로소프트 사의 Hololens2 에서는 Dwell-based Selection이 있습니다[7]. 그림 3의 오른쪽과 같이 특정 영역 을 오래 응시하게 되면 5단계의 과정을 통해서 선택을 하는데, 너무 짧게 지연 시간을 설계를 하면, 의도치 않은 선택을 하는 오류가 발생할 수 있으므로, 지연 시간을 적절하게 설정하는 것이 중요합니다. 그 이외에도 눈의 깜빡거림을 통해서 XR 내에서 선택을 하는 Blink Selection 등 여러가지 기술이 XR 내에 적용되고 있습니다.
[그림 4] 3개의 반응 시간 (출처 : NN Group, [9])
다음으로 눈 자체도 하나의 사용성의 지표가 되었습니다[8, 9]. 우리의 눈이 외부의 자극에 반응하는 시간은 0.05초~0.2초 사이고 늦어도 0.1초입니다. 이를 반영한 것이 UX에서 자주 언급되는 기초 이론 중 하나인 반응 시간에 대한 이야기입니다. 먼저, 눈의 자극시간에 상응하는 0.1초 이내의 반응은 사용자가 시스템이 즉각 반응한다고 느끼는 시간으로, 이 경우엔 결과만 보여주면 충분합니다. 1초 이내의 반응은 사용자가 지연을 느끼긴 하지만 생각의 흐름이 끊기지 않는 시간입니다. 10초는 사용자가 대화에 집중력을 유지할 수 있는 최대 시간으로, 이보다 오래 걸리면 작업 완료 예상 시간을 알려주는 것이 좋습니다. 갑자기 이 이야기를 하는 이유가 뭘까요?
[그림 5] 페트 음료 코너를 보는 실험자의 시선 (출처 : Tobii [10])
우리의 눈은 우리의 습관을 무의식적으로 말해주고 있고, 정밀한 시각 데이터만으로도 사람들의 패턴을 높은 정확도로 예측할 수 있습니다[11]. 이에 따라 UX 연구를 하는 사람들도 아이트래킹을 사용한 시각 데이터를 모으는 사례도 증가하고 있습니다[12, 13]. 위 그림 4와 같이 마트에서 음료수를 살 때 우리는 저렇게 다양하게 눈을 움직인다는 것을 알 수 있는데, 사람들마다 위부터 보는 경향이 있다거나 좋아하는 음료를 먼저 보고 나머지를 훑어본다던가 등 사람마다 수집되는 시각 데이터가 다릅니다. 그러면 시각 데이터를 보는 중요한 지표는 어떤게 있을까요?
[그림 6] 만화를 보는 독자의 시선 데이터의 예시(왼쪽, [14]), Fixation 과 Saccade 정의 (오른쪽, [14])
안구운동은 크게 응시 안구운동(Fixation)도약 안구운동(Saccade)으로 나눌 수 있습니다. 그림 5의 오른쪽에서 이에 대해 자세히 설명하고 있습니다. 응시 안구운동은 구간 내에서 시선이 머무는 것을 의미하며, 특정 시간 이상 정의된 구간 내에 있을 때를 응시한다고 정의합니다. 이때 특정 시간이나 구간은 연구자의 재량에 따라 제공되는 필터를 사용하거나[15] 새롭게 정의할 수 있습니다. 반면, 그 이외의 움직이는 모든 순간을 도약 안구운동이라고 정의합니다. 안구운동 분석에서는 어떻게 보는지뿐만 아니라 특정 구간을 얼마나 보는지도 중요합니다. 이를 위해 관심 영역(Area of Interest)을 지정할 수 있으며, 이를 통해 사용자가 관심 영역을 얼마나 바라보는지 측정할 수 있습니다. 또한, 관심 영역과 상관없이 전체 화면에서 어느 영역을 바라봤는지를 히트맵(Heatmap)을 사용합니다. 히트맵은 단위 면적 당 응시 지점의 수를 색으로 대응시켜 표현하며, 그림 5 왼쪽과 같이 빨간색에 가까울수록 응시 지점이 많다는 것을 의미합니다. 이러한 네 가지 개념을 기본으로 하여 사용자의 시선 데이터를 수집하고 사용성 검증을 진행하게 됩니다.

아이트래킹 : 눈을 쫓기 시작한 추적 기술

※ 본 파트는 홍익대학교에서 진행된 산업체 전문가 특강의 일부분을 바탕으로 재구성되었습니다[16,17].
위에서 말한 눈이 세상과 이야기하는 두 가지 방식은 모두 공통적인 기술을 기반에 두고 있습니다. 바로 아이트래킹(Eye-Tracking) 입니다. 그러면 우리는 언제부터 눈을 쫓기 시작했을까요? 최초의 아이트래커(Eye-Tracker) 는 19세기로 거슬러 올라갑니다.
[그림 7] 1898년 최초로 고안된 동공의 움직임을 추적하는 아이트래커 (Delabarre, 1898)
19세기 아이트래킹 기술은 매우 기초적이고 침습적인 방법으로 시작되었습니다. 1879년 Hering과 1892년 Lamare는 윗 눈꺼풀에 북을 달아 안구 움직임의 횟수를 세는 기기를 개발했습니다. 이는 아이트래킹의 초기 시도로 볼 수 있습니다. 19세기 말인 1898년, Delabarre는 더 진보된 방식을 제안했습니다. 그는 눈 위에 특별한 껍데기를 씌워 동공의 움직임을 추적하는 장치를 개발했습니다. 하지만 이 방법은 매우 고통스러워서 사용자들은 2-3%의 코카인을 흡입해야 할 정도였습니다. 이 시기의 아이트래킹 기술은 정확도는 높았지만, 사용자에게 상당한 불편함을 주는 한계가 있었습니다.
[그림 8] Yarbus가 개발한 아이트래커(왼쪽) 와 아이트래커를 사용해서 추적한 결과(오른쪽)
20세기에 들어서면서 아이트래킹 기술은 큰 발전을 이루었습니다. 1901년 Dodge와 Cline이 개발한 각막 반사(Corneal Reflection) 방식은 1960년대까지 널리 사용되었습니다. 이 방법은 동공에 빛을 쏘아 반사되는 빛의 위치를 파악하는 방식으로, 이전보다 덜 침습적이었습니다. 1967년 Yarbus는 이 기술을 더욱 발전시켜 흰자위에 석션컵과 거울을 달아 더 강한 반사광을 얻는 방식을 고안했습니다. 이 방법의 정확도는 2000년대 초의 디지털 아이트래커에 버금갔지만, 여전히 눈을 고정해야 하는 단점이 있었습니다. 20세기 후반에 이르러 Cornsweet 등이 개발한 Dual Purkinje Imaging (DPI) 기술은 획기적인 발전을 가져왔습니다. 이 기술은 각막에 어떤 장치도 부착하지 않고도 높은 정확도로 안구 움직임을 측정할 수 있게 해주었으며, 미세한 안구 움직임인 microsaccade까지 감지할 수 있었습니다.
[그림 9] EyeLink 1000 Plus 와 턱 보조대를 사용해서 실험에 참여하는 참가자
현대의 아이트래킹 기술은 이전보다 훨씬 더 정교하고 사용자 친화적으로 발전했습니다. Dark Pupil Tracking 기술은 고대비 카메라를 사용하여 동공의 위치를 정확히 계산합니다. Pupil and Corneal Reflection (P-CR) 기술은 1967년 Merchant가 처음 제안한 것으로, 고개의 움직임에 의한 오차를 효과적으로 보정할 수 있어 널리 사용되고 있습니다. 이 기술은 각막 대비 동공의 움직임이 크면 시선이 이동한 것으로, 각막과 동공이 함께 움직이면 고개가 움직인 것으로 판단합니다. 현재 가장 정확한 동공 추적 장치로 알려진 EyeLink 1000 Plus는 초당 2000회의 샘플링 속도와 0.25-0.50도의 놀라운 정확도를 자랑합니다. 이러한 현대 기술의 발전으로 아이트래킹은 더욱 정확하고 편리해졌으며, 다양한 연구와 응용 분야에서 널리 활용되고 있습니다.
그럼 XR 특히 VR에서의 아이트래킹은 어떻게 사용되고 있을까요? 현재 VR 상에서는 VR 내 렌더링, 사용자 인터랙션 상에서 아이트래킹이 자주 사용됩니다[18]. 먼저 VR 내 렌더링의 경우 HMD 기반의 VR의 경우 고개의 움직임이나 눈의 움직임과 렌더링 속도가 맞지 않아서 발생할 수 있는 문제를 해결할 수 있습니다. 대표적인 예시로, 아이트래킹을 통해서 렌더링 효율을 높일 수 있으면서, 뎁스 차이에서 오는 불편함을 줄일 수 있습니다. 결과적으로 VR 내 어지럼증(VR Sickness)를 줄이는데 기여하게 됩니다. 사용자 인터랙션에서는 어떨까요?
[그림 10] 동공 기반 VR simulator 와 로봇 제어 연동 [19]
사용자 인터랙션에서는 단순한 눈을 사용한 선택 및 조종부터 가상현실 내에서 조종 및 이동[19], 시스템 제어 등에 사용됩니다. 특히, 가상환경 내에서의 이동(Virtual Locomotion)[20]은 매우 중요한 기술이고 미래의 핵심 경험 요소 중 하나인데, 동공 기반 이동이 새로운 형태의 이동방식으로 주목을 받고 있습니다. 그 이외에도 아이트래킹 기술은 교육 및 훈련, 보안, 마케팅과 소비자 경험(Customer eXperience), 의료적인 활용에서도 쓰입니다. 필자의 의견은 시간이 되신다면 참조문헌에 있는 이 논문[19] 을 읽어보시는걸 추천드립니다. 인사이트 함양에 큰 도움이 될 것입니다.

우리의 눈은 어떤걸 봐야할까?

XR 환경에서 눈을 고려한 계층 메뉴 UX 디자인이 개발되고 있는 추세에 따라[21], XR에서 눈을 고려한 UX의 중요성이 점점 더 부각되고 있습니다. 2024년은 애플 비전 프로의 출시와 메타의 사업부 조정 등으로 XR 산업에 큰 변화가 일어나는 해로 볼 수 있습니다. 지난 8월 제주에서 열린 제 22회 국제인간공학회에서는 VR/AR/메타버스 세션에서 AR 관련 연구가 두드러졌고, 특히 Hololens2의 아이트래킹 기능에 대한 측정과 홀로렌즈를 눈 관련 실험 장비로 활용하는 사례가 증가한 점이 주목할 만했습니다. 앞으로는 AR/MR 내에서의 눈을 사용한 인터랙션에 관심을 가지는 것도 좋을 것 같습니다.
또한, Apple Vision Pro는 아이트래킹 기술을 적극 활용하면서도 눈과 손의 움직임을 개인정보로 정의[22, 23]하고 이에 대한 법적 고지를 명시했습니다. 이는 주민등록번호나 주소와 같은 전통적인 개인정보의 개념이 생체 데이터로까지 확장되고 있음을 보여줍니다. 앞으로 XR 경험과 인터페이스를 설계하는 사람들뿐만 아니라 보안 개발자들까지도 시각 데이터를 중요하게 고려해야 할 것입니다. 눈은 우리에게 가장 중요한 감각 기관이기 때문입니다.
이번 아티클을 통해 XR 경험 설계에 관심 있는 모든 독자분들이 눈과 많은 이야기를 할 수 있는 사람이 되고, 설계를 할 때는 눈의 이야기를 사람들에게 알려줄 수 있는 이야기꾼이 되기를 바라며 이번 아티클을 마치고자 합니다.
작성자 : XREAL 신영환

References