음성 상호작용을 혁신 중인 대규모 언어 모델
대규모 언어 모델(LLM, Large Language Model)의 발전이 음성 상호작용의 경계를 확장하고 있습니다. 이전보다 자연스럽고 복합적인 언어 처리를 통해 음성 기반 의사소통을 더욱 정확하고, 효과적으로 수행할 수 있게 되었습니다. 또한 새로운 연구 논문들이 활발하게 발표되며 발전되는 중인 기술이기도 합니다.
음성 인공지능 기술은 크게 음성을 인식하는 기술과 음성을 생성하는 기술로 나뉩니다. 음성을 인식하는 기술은 음성 신호를 입력으로 받아들여 텍스트로 변환하는 기술입니다. 주로 ASR(Automatic Speech Recognition) 혹은 STT(Speech-To-Text)라고 부르죠. 음성 인식 기술의 고도화를 위해서는 발화자를 인지하고, 말의 내용과 감정을 이해하며, 사용자 주변의 환경과 맥락을 파악할 수 있어야 합니다. 음성을 생성하는 기술은 텍스트를 입력으로 받아들여 음성으로 변환하는 기술로 TTS(Text-To-Speech)라고 합니다. 기술로 구현한 대화가 일상의 대화와 닮기 위해서는 상황에 따라 자연스럽게 말하고, 감정을 담아 표현해야 합니다. 더 나아가 청자의 사용 언어에 맞는 언어로 번역하거나 다른 사람의 목소리를 따라 하는 등의 기능을 추가적으로 수행할 수 있습니다.
이러한 기능은 가상 비서, 디지털 휴먼, 음성 인식 시스템 등에 적용되어 디바이스의 사용자 경험을 향상합니다. 특히 구글의 AudioPaLM과 OpenAI의 Whisper같은 최근 공개된 모델은 음성 분야에서 높은 발전 속도를 보이고 있습니다.
말하고 들을 수 있는 언어 모델 : AudioPaLM과 WhisperAI
구글에서 개발한 AudioPaLM은 텍스트 기반 언어 모델인 'PaLM-2'와 음성 기반 언어 모델인 'AudioLM'을 결합한 통합 멀티 모달 아키텍처입니다. AudioLM은 화자 식별 및 어조와 같은 준언어 정보를 유지하는 데 탁월하고, PaLM-2는 텍스트 별 언어 지식에 특화되어 있습니다. 이를 통해 음성 인식, 음성-음성 번역과 같은 응용 분야에서 텍스트와 음성을 처리 및 생성할 수 있습니다. AudioPaLM은 기존에 별도의 모델에서 훈련해 왔던 STT, TTS, 음성 번역과 같은 작업을 단일 아키텍처에 통합했습니다.
OpenAI에서 개발한 Whisper는 다국어 및 다목적 감독 데이터를 학습한 자동 음성 인식(ASR) 모델입니다. 웹에서 수집한 다양한 오디오 데이터를 기반으로 학습되었으며, 다국어로 음성 인식, 음성 번역, 언어 식별 등의 작업을 수행할 수 있는 다목적 모델입니다. 기존에는 유료 고객에게만 제공하던 기능을 지난 달 22일부터 모든 사용자가 활용할 수 있게 되었습니다. 저도 ChatGPT의 Whisper 음성 인식 기능을 사용하며 ‘이렇게 개떡같이 말해도 찰떡같이 알아듣고 대화가 가능하구나’라는 놀라움을 느꼈습니다. 이미 ChatGPT의 Whisper를 활용해 영어 선생님과의 전화 영어, 매일 아침 뉴스 요약 등의 역할로 사용하는 케이스를 어렵지 않게 찾아볼 수 있습니다. 제한적인 대화만이 가능하던 기존 아이폰의 시리나 갤럭시의 빅스비와 다르게 실제 대화를 하고 있다는 생각이 들었고, 타이핑 없이 말로 상호작용할 수 있어서 훨씬 편리한 경험이었습니다.
출처 : OpenAI
음성 LLM이 가상현실(VR)에 더하는 가치
가상현실(VR)과 대규모 언어 모델(LLM) 기반 음성 기술의 결합은 사용자 경험을 한 단계 높은 차원으로 끌어올리는 중요한 발전입니다. 가상 현실 속에서 사용자가 원하는 행동을 선택하고, 3D 세상과의 인터렉션을 수행하기 위해 어떤 기술을 지원할까요? 휴대폰이나 노트북을 사용할 때는 키보드를 통해 검색과 같은 상호작용을 수행합니다. 지금 저도 키보드를 통해 글을 작성하고 있죠! 하지만, 익숙한 기기와의 상호작용 방법이 3D 환경에서 동일하게 적용될 수 있을까요?
메타 퀘스트 프로는 상호작용을 위한 보조장치로 컨트롤러를 활용합니다. 컨트롤러를 통해 모든 키보드 자판을 하나하나 클릭하여 사용하는 과정은 독수리 타법처럼 답답하고 어렵게 느껴집니다. 이처럼 VR 컨트롤러가 가상 현실과 상호작용하는 방식은 서툴고 직관적이지 않아 환경에 몰입하고 탐색하기 어려울 때가 발생합니다. 이를 개선하기 위해 손의 움직임을 실시간으로 인식하고 기기의 상호작용에 활용하는 핸드 트래킹 기술이 개발되고 있습니다. 애플의 비전프로는 컨트롤러를 없애고 손과 시선 추적을 통해 인터페이스를 구성할 예정이라고 공개했습니다. 이후 기존 많은 VR 회사에서 컨트롤러 없이 핸드 트래킹 기술을 사용할 수 있는 소프트웨어 업데이트를 수행하고 있습니다. Meta는 메타 퀘스트 v50 업데이트를 통해 직접 터치 기능을 추가하고, PICO는 OS 5.8.0 업데이트를 통해 핸드 트래킹 성능을 개선했다고 밝혔습니다.
이렇듯 VR 환경 속에서 더 나은 사용자 경험을 제공하기 위해 다양한 시도가 이어지고 있습니다. 사용자가 가상현실에 몰입할 때는 이를 인식하는 방식, 그리고 상호 작용하는 방식 모두 자연스럽게 경험하기를 원합니다. 음성을 통한 대화는 현실에서 가장 보편적으로 활용하는 상호 작용 중 하나 입니다. VR 환경에서 AI 음성 기술을 통한 음성 명령 및 응답 기능이 고도화되면, 상호 작용이 더 자연스러워지고, 사용자의 학습 부담을 감소할 수 있을 것 입니다.
이와 같은 맥락으로 Meta는 작년 사용자의 음성 명령을 통해 호라이즌 월드를 구축하고, 수정할 수 있는 음성 기반 생성형 AI 도구인 ‘Builder Bot’ 시연 영상을 공개했습니다. 객체를 생성하고, 선택하는 과정을 대화형으로 수행할 수 있게 함으로써 사용자의 접근성을 높이고자 했죠.
출처 : Meta
또한 Meta는 동시 번역이 가능한 SeamlessM4T 대규모 다국어 모델을 공개했습니다. 해당 모델은 약 2초의 지연 시간만으로 실시간 번역이 가능하고, 최대 100개의 언어를 지원합니다. 이는 언어의 장벽을 뛰어넘는 실시간 소통의 가능성을 보여줍니다. 네이버의 메타버스 플랫폼인 ‘제페토(ZEPETO)’의 전세계 가입자 중에 약 95%는 해외 이용자입니다. 제페토는 현재 국내를 비롯해 미국, 프랑스, 일본 등 전 세계 200여 개 국가에서 서비스를 지원하고 있죠. 메타버스는 물리적인 공간의 한계가 없는 만큼, 다양한 국가와 문화를 가진 사람들이 같이 만나서 소통할 수 있는 가상 공간입니다. 이 때 각자의 언어를 활용하지만 동시 번역을 통해 서로 알아들을 수 있다면 이는 언어의 장벽을 뛰어넘는 경험이 될 것입니다. VR 환경은 시각적 경험을 넘어서, 복합적이고 편리한 대화 경험을 제공할 수 있습니다.
가상현실과 음성의 결합이 여는 새로운 가능성
가상현실(VR)과 음성 AI의 결합은 현실 세계의 상호작용을 가상 현실로 가져옴으로써 사용자의 몰입감과 접근성을 높이는 경험을 제공합니다. 음성 명령을 통해 가상 공간에서의 이동이나 선택이 가능해짐으로써, 복잡한 조작 없이도 더욱 자유롭게 환경을 탐색할 수 있죠. 또한 실시간 음성 번역이 가능해진다면 다양한 국가의 사람들과의 커뮤니케이션도 훨씬 편리해질 것입니다. 이러한 접근은 VR 기술이 오락과 시각적 경험을 넘어, 현실의 공간을 투영하는 용도로도 활용될 수 있는 가능성을 보여줍니다. 향후 VR과 음성 인식 AI의 발전은 우리의 생활 방식과 업무, 교육에 혁신을 가져올 것으로 기대됩니다.
[참고자료]
Meta의 MMS