XREAL
Vision
🤝

AI와 손 잡는 XR, 왜?

인터뷰하는 마이크로소프트 공동 창립자 Bill Gates (출처: Paul Richards/AFP via Getty Images)
“지난 1년간 AI에게서 보고 있는 것은 PC와 GUI, 인터넷만큼이나 중요한 발전이다. (What I'm seeing in AI just in the last 12 months is every bit as important as the PC, the PC with GUI, or the internet)” - Bill Gates, 2023 ¹⁾
자연스러운 소통, 빠른 응답 속도, 높은 퀄리티의 답변. 지난 2022년 ‘ChatGPT’는 대중을 충격의 도가니에 빠뜨렸습니다. 이전까지만 해도 사람들은 AI를 ‘흥미롭지만 아직 갈 길이 먼 기술’로 인식하고 있었습니다. 알파고-이세돌의 바둑 대결이나 심심이, 이루다 같은 사건들이 이따금 이목을 끌기도 했지만, 사람들의 기대를 충족시키기에는 부족했죠. AI와 인간처럼 대화한다는 것은 공상과학에서나 가능한 이야기처럼 여겨졌습니다.
ChatGPT 인터페이스 (출처: OpenAI)
그렇게 등장한 ChatGPT는 ‘AI 붐’을 일으켰습니다. 여러 기업부터 정부까지 앞다투어 AI 관련 산업에 투자하였으며, 여러 서비스는 유행처럼 AI를 장착하였고, 사람들은 AI가 바꿔놓을 미래에 대한 걱정과 기대를 쏟아내었습니다. 반면, 한쪽에서는 ‘메타버스 붐’이 서서히 식어갔습니다. 기술과 생태계가 준비되지 않은 상황에서 받았던 과도한 관심이 오히려 독이 된 셈이었습니다. ‘메타버스’에 대한 통일된 정의조차 없는 회의적인 시점에서 새로운 AI의 등장은 사람들의 시선을 돌리기에 충분했습니다.
최근 메타²⁾, 삼성-구글³⁾ 등 기업들로부터 XR과 AI를 접목하려는 시도가 여럿 보이고 있습니다. 특히 메타는 구조조정을 통해 메타버스 연구 조직 ‘리얼리티 랩스’를 개편하고⁴⁾, 개발자용 AR 플랫폼 ‘메타 스파크’를 가까운 시일 내에 폐쇄하기로 결정하는 등⁵⁾, 자원을 AI에 집중하기 위해 적극적인 행보를 보이고 있습니다. 그렇다면, 많은 사람들이 이렇게 XR과 AI를 연결하려는 이유는 무엇일까요? 잊혀져가는 메타버스를 AI의 힘으로 심폐 소생해 보려는 목적일까요? 저는 이 두 기술이 보다 근본적으로 서로를 필요로 하기 때문이라고 생각합니다. 이번 아티클에서는 XR과 AI, 이들의 관계성과 제공할 수 있는 가치를 ‘인간 중심적 기술’의 관점에서 짚어보고자 합니다.

AI가 할 수 있는 것

사실 AI는 ChatGPT 이전에도 이미 존재해 왔습니다. 일례로 앞서 언급했던 ‘알파고’는 딥러닝 방식으로 승리 가능성이 높은 수를 예측하여 유리한 선택을 하도록 설계된 AI입니다. 애플의 ‘시리’와 같은 음성 비서는 자연어 처리(NLP) 방식으로 사용자의 문장을 해석하여 적절한 답변을 제공하는 AI이죠. 이들은 공통적으로 입력된 수치를 해석하고, ‘판별’을 내립니다. 주어진 이미지가 개인지 고양이인지, 해당 수의 승률이 높은지 낮은지, 음성이 어떤 의미를 가지는지를 확률적으로 판단합니다.
생성형 AI ‘미드저니’로 만들어낸 ‘스페이스 오페라 극장’ (출처: Jason M. Allen 트위터)
이러한 생성형 AI가 강력한 이유는 인간과 더 가까워졌기 때문입니다. 비록 실제 인간과 같은 사고 과정을 거치는 것은 아니지만, 방대한 양의 학습 데이터를 활용하여 인간다운 결과물을 도출해 냅니다. ChatGPT를 쓰다 보면 마치 실제 사람과 대화하고 있는 것 같은 착각까지 들 정도인데요, 이런 결과물을 만들어내는 생성형 AI의 범용성은 두말할 필요도 없습니다. 2022년 한 미술전에서 1등 상을 받은 작품이 사실 이미지 생성형 AI ‘미드저니’로 만든 것이었다는 일화는 이미 잘 알려져 있습니다⁶⁾. 또한 한 연구에서는 사람들이 블라인드 테스트에서 AI와 인간이 만든 그림을 잘 구분하지 못할 뿐만 아니라, AI가 생성한 그림을 더 선호하는 것으로 나타나기도 하였습니다⁷⁾.
우리가 사과를 이해할 때 활용하는 다양한 정보들 (출처: Intel Labs)
사람은 무언가를 이해할 때 시각, 청각, 촉각 등 여러 감각으로부터 얻는 정보를 총체적으로 고려하여 판단합니다. 사과를 예로 들면, 그 생김새뿐만 아니라 붉은색, 단단한 촉감, 씹을 때 나는 ‘아삭’ 소리와 단맛까지, 얻을 수 있는 모든 정보를 활용하는 것이죠. 이렇게 여러 종류의 정보를 받아들일 수 있는 능력을 ‘멀티 모달리티(Multi Modality)’라고 하는데요. ChatGPT-4o나 구글의 Gemini 같은 최신 생성형 AI는 이러한 인간의 멀티모달 능력까지 갖추어 비디오, 이미지, 텍스트 등 다양한 유형의 데이터를 동시에 이해하고 처리할 수 있습니다. 그리고 멀티모달 생성형 AI는 인간의 방식에 한 발 더 다가간 만큼 더 높은 활용성을 갖게 됩니다.
멀티모달 AI는 우리와 더 인간적인 소통이 가능합니다. 가령 우리가 AI에게 수학 문제를 물어볼 때 그 문제를 스무고개 하듯 글로 풀어 설명할 필요 없이, 친구에게 연락하듯 사진 한 장을 보여줌으로써 같은 결과를 얻을 수 있습니다. 더 효율적인 소통이 가능해지는 것이죠. 또한, 멀티모달 AI는 더 많은 정보를 바탕으로 더욱 맞춤화된 보조를 수행할 수도 있습니다.
AI가 가진 강점은? (ChatGPT 생성)
ChatGPT와 같은 생성형 AI는 인터넷에 산재한 방대한 양의 지식뿐만 아니라, 영감을 주는 레퍼런스를 직접 생성하여 제공할 수 있습니다. 그리고 우리는 이러한 지식과 레퍼런스를 조합하여 인사이트를 더 빠르고 쉽게 얻어낼 수 있습니다. 여기에서 구글 같은 기존 검색 엔진과의 차별점은, 그 지식을 인간에게 더 익숙한 방식으로 제공할 수 있다는 것입니다. 분명 조만간 우리는 원하는 정보를 찾기 위해 ‘구글링’할 필요 없이, 단순히 AI와 대화하는 것만으로도 만족한 답을 얻을 수 있게 될 것입니다.

XR이 할 수 있는 것

그렇다면 XR이 할 수 있는 것은 무엇일까요? XR(eXtended Reality)은 그 이름에서부터 알 수 있듯, 현실을 ‘확장’하는 데에 최적화된 기술입니다. 현 XR 시장이 주로 목표로 하는, 사용자를 완전히 다른 또 하나의 현실에 몰입시키는 것도 확장이지만, 사용자의 현실에 한 겹의 디지털 레이어를 더하는 것 또한 일종의 확장으로 볼 수 있을 것입니다.
애플이 ‘비전 프로’와 ‘맥북‘으로 선보이는 공간 컴퓨팅(출처: macrumors)
그런 의미에서 애플이 지향하는 ‘공간 컴퓨팅’은 이러한 확장의 의미를 잘 담아내는 사례로 볼 수 있습니다. 공간 컴퓨팅이란 무엇일까요? 기존의 컴퓨팅, 즉 데스크탑 PC와 모바일에게는 ‘화면’이라는 물리적인 한계가 존재합니다. 사용자는 고정된 2차원 평면을 통해서만 컴퓨터와 소통할 수 있으며, 사용하는 동안 자신의 모든 주의력을 작은 화면에 집중합니다. 마우스로 커서를 조작하고, 버튼을 터치하고, 키보드로 문자를 입력하는 것도 모두 작은 화면 안에서 일어나죠.
반면 공간 컴퓨팅은 이러한 것들이 모두 사용자의 공간 전반에서 일어납니다. 사용자는 물리적인 제약 없이 가상 화면을 공간에 배치할 수 있으며, 손과 눈 등을 활용하여 이들을 직관적인 방식으로 제어할 수 있습니다. 또한 이들은 단순한 증강을 넘어서 실제 사용자의 주변 환경을 인식합니다. 사물 뒤에 배치된 부분이 가려지거나, 테이블 위에 놓거나, 벽에서 튀어나오는 등 주변 공간과 유기적인 상호작용이 가능합니다.
비전 프로는 맥북 같은 자사의 컴퓨팅 유닛과의 연동을 통해 화면을 공간에 배치하는 형식의 공간 컴퓨팅을 제시하였습니다. 비록 애플은 이를 아직 매끄러울 정도로 구현하지는 못했지만, 현실과 가상의 경계를 넘나들게 함으로써 생산성을 극대화해 낸다는 방향성은 분명 주목할 필요가 있습니다.
홀로렌즈 2 기기의 구조도 (출처: 마이크로소프트)
XR이 할 수 있는 또 하나의 일은 사용자와 주변 환경에 대한 정보를 수집하는 것입니다. 위 사진은 홀로렌즈 2의 구조도인데요, 해당 기기가 여러 센서와 카메라로 얻을 수 있는 정보는 다음과 같습니다.
: 손의 위치와 자세(핸드 트래킹), 시선(아이 트래킹), 음성(마이크), 머리의 위치와 각도(IMU 센서), 시야의 이미지(전면 카메라), 공간의 구조(뎁스 카메라)
핸드폰, 컴퓨터와는 비교할 수 없을 만큼 다양한 정보를 수집하는 것을 확인할 수 있습니다. 그리고 이렇게 모인 정보는 사용자에게 맞춤형 경험을 제공하기 위해 활용됩니다. 핸드 트래킹은 사용자의 몰입을 도울 수 있으며, 뎁스 카메라는 몰입형 경험 중 주변 환경에 부딪히는 것을 방지하기 위해 활용할 수 있습니다. 상술한 공간 컴퓨팅을 구현하기 위해서도 주변 공간을 인식하거나, 사용자의 동작을 받아들 수 있어야 합니다. 그리고 XR은 이를 수행하기에 가장 알맞은 기술입니다.

AI와 XR이 손 잡는 이유

그렇다면 AI와 XR이 손을 잡으려는 궁극적인 이유는 무엇일까요? 다양한 견해가 있겠지만, 제 생각은 이렇습니다. 기술이 인간과 더 가까워지기 위해, ‘인간 중심적인 기술’이 되기 위해 AI와 XR이 서로를 필요로 하는 것이죠.
인간 중심적인 기술이란 무엇일까요? 과거의 기술은 인간을 충분히 고려하지 않았습니다. 우리는 리모콘의 수많은 버튼 중에서 원하는 기능을 찾아내기 위해 노력해야 했으며, 포토샵을 사용하기 위해서는 복잡한 단축키를 공부하고 외워야 했습니다. 또한 핸드폰을 사용하기 위해서는 항상 손에 들고 있는 채로, 작은 화면에 온 신경을 집중하기 위해 주변의 넓은 시야를 포기해야만 했습니다.
1998년 출시된 최초의 iMac (출처: 애플)
하지만 성능의 발전 속도는 점차 안정기에 이르렀습니다. 우리는 더 이상 시계의 정확도에 대해 논하지 않게 되었고, 자동차 회사는 더 이상 신차의 최고 주행 속도를 광고하지 않게 되었죠. 기술을 바라보는 다른 관점이 점차 생겨났고, 몇몇은 이러한 점을 영리하게 파고들었습니다. 최초의 iMac을 디자인한 애플의 전 최고 디자인 책임자 조나단 아이브(Jonathan Ive)는 소비자가 기술을 쉽게 만날 수 있는 방법에 대해 고민하였고, 그 답을 디자인과 사용자 경험에서 찾았습니다. 사용성, 심미성 등, 성능이 아닌 또 다른 가치의 중요성을 깨닫게 된 것입니다.
UX 디자인의 아버지로 불리는 도널드 노먼(Donald Norman)은 인간의 특성에 주목하였습니다. 인간은 감정적이고 주의가 산만하며 비논리적이다, 여러분은 이에 동의하시나요? 도널드 노먼은 이러한 견해를 ‘기계 중심적 견해’로 봤습니다. 인간을 기계에 맞추고, 기계와 비교하는 것이죠. 기술자들 전반에 존재하는 이러한 견해가 자연스럽게 녹아들며, 인간을 고려하지 않은 기술이 만들어지게 된 것입니다. 도널드 노먼은 인간을 기계에 맞추는 것이 아니라 기계를 인간에 맞추는 ‘인간 중심 디자인’을 강조하였습니다.
기술 중심 디자인의 리모컨(좌), 인간 중심 디자인의 리모컨(우)
왜 인간 중심적인 기술이 필요할까요? 기계를 인간에 맞추면 우리에게 어떤 이점이 있을까요? 먼저 기술이 더 편리해집니다. 우리가 기술을 사용하기 위해 부담했던 짐을 기술에게 덜어낼 수 있기 때문이죠. 우리는 문제 해결 과정에서 소요했던 인지적인 부하를 줄임으로써, 우리가 기술을 사용하려 했던 원래의 목적을 더 쉽게 달성할 수 있게 될 것입니다.
또한, 새로운 경험을 얻을 수 있습니다. 편리함을 만들어내기 위해 고민하는 과정에서 기술에 녹아드는, 사용자에 대한 존중과 배려는 우리에게 목적 달성 이상의 가치를 제공할 수 있습니다. 목적을 달성하는 데에서뿐만 아니라, 사용 과정 자체에서도 즐거움을 얻을 수 있게 되는 것이죠.
메타의 스마트 글래스 ‘레이벤’ (출처: 레이벤)
메타의 이미지 분할 AI 모델 ‘SAM’ (출처: 메타)
최근 XR 시장에서는 안경 형태의 폼팩터가 주목받고 있습니다. 기존의 HMD보다 가벼우면서, 카메라와 마이크, 스피커 등 여러 장비를 탑재할 수 있고, 사용자가 일상생활에서도 오래 착용할 수 있는 등 다양한 이유가 존재합니다. 하지만, 스마트 글래스가 유망하다고 평가받는 가장 결정적인 이유는 AI와의 궁합 덕분입니다. 메타가 출시한 스마트 글래스 ‘레이벤’은 2023년 12월부터 대중의 관심을 받기 시작하였는데요. 글래스에서 활용할 수 있는 AI 비서 ‘메타 어시스턴트’에게 멀티모달 능력이 적용되었기 때문입니다. 메타의 짜임새 있는 UX를 경험한 ‘나인투파이브맥(9to5Mac)’의 필리페 에스포지토는 "레이밴 덕분에 스마트 글래스를 믿게 됐다"라고 언급할 정도였습니다.
XR과 AI간의 상호작용과 유사한 인간의 수용-반응 체계
이처럼 XR은 멀티모달 AI와 결합할 때 더욱 그 능력을 극대화할 수 있습니다. XR이 센서로부터 주변 환경 정보를 수집하면, 수집된 데이터를 바탕으로 AI가 상황을 파악하여 알맞은 명령을 내릴 수 있습니다. 그리고 XR은 다시 그 결과를 사용자 앞에 증강하는 식으로 보조 역할을 수행합니다. 이는 인간의 수용-반응 체계와 놀랍도록 유사한 형태입니다. 결국 XR이 AI의 눈과 귀가 되어 주고, AI는 XR의 머리가 되어 줌으로써 두 기술은 완전한 ‘인간 중심적 기술’이 될 수 있는 것입니다.
앞으로도 기술은 우리에게 더욱더 맞춰지는 형태로 진화할 것입니다. 그리고 그런 미래가 올 때 기술에 대한 편견은 한편에 잠시 접어두고, 기술을 받아들일 수 있는 열린 마음을 가져야 하겠습니다. 더욱 유용해진 기술을 통해 우리는 더 많은 것들을 할 수 있게 될 테니까요. [작성자: XREAL 김윤찬]