스마트 스피커는 예전만큼 보편적이지 않을 수 있지만, 당신이 Tom's Guide 독자라면 집에 적어도 하나는 있을 가능성이 높음.
Alexa, Google Assistant, HomePod 등을 사용하든, OpenAI가 당신이 선택한 대화형 스피커를 위한 대규모 업그레이드의 기초를 마련했을 수 있음.
ChatGPT의 새로운 'Realtime API'는 다른 애플리케이션에 고급 음성 기능(및 기타 기능)을 '연결'하는 역할을 할 것임.
OpenAI의 말에 따르면, "개발자들은 이제 애플리케이션에 빠른 음성 대 음성 경험을 구축할 수 있음".
이건 꽤 좋은 요약이며, ChatGPT의 고급 음성 모드와 유사하게 작동하여 개발자들이 자신의 애플리케이션에 쉽게 구현할 수 있는 음성 대 음성 기능을 제공함.
이전에는 개발자들이 음성 인식 애플리케이션을 사용해 스크립트를 전사해야 했음. 그 결과는 뉘앙스가 부족하고 진정한 대화의 느낌이 없는 '재고' 같은 목소리였음. OpenAI는 Chat Completions API를 통해 한 번의 API 호출로 이를 더 쉽게 처리할 수 있게 했음.
이름에서 알 수 있듯이, Realtime API는 오디오와 입력을 직접 스트리밍하여 개발자들이 음성 비서가 자연스럽게 중단될 수 있도록 함(그게 무례하게 들릴 수 있지만).
이 중단 요소는 핵심임. 스마트 스피커가 명령을 잘못 해석하고 다시 물어보려면 스스로 대화할 때까지 기다려야 했던 경험이 몇 번이나 있었을 것임.
그건 성가신 일이지만, 더 나은 중단 감지 기능 덕분에 상황이 많이 개선될 수 있음. 당신이 선택한 스마트 스피커는 더 나은 기본 모델 덕분에 명령을 더 자주 정확하게 이해할 수 있고, 명령 자체도 훨씬 더 복잡해질 수 있음.
여러 가지 일을 순서대로 요청하거나 이전 대화를 언급해본 적이 있다면, 그들이 실제로는 그렇게 똑똑하지 않다는 것을 알게 되었을 것임. 하지만 OpenAI의 Realtime API의 맥락 인식 덕분에, 당신은 스피커에게 이전 대화에서 무언가를 기억해 달라고 요청하거나, 자신의 프로필을 추가하여 스피커가 당신을 파트너나 아이들과 다르게 부를 수 있도록 할 수 있음.
물론, 이 모든 것은 현재 가정일 뿐이지만, 5년 전 프라임 데이 때 구입한 Echo Dot이 슈퍼차지될 수 있음.
Realtime API가 할 수 있는 다른 것들은 무엇일까?
나는 AI가 인간의 일자리를 대체하라고 제안하는 사람은 아니지만(이 분야에서는 매우 미끄러운 경사임), 스피커가 당신이 요청한 노래의 버전을 아는 것 외에도 추가적인 가능성이 있다고 생각함.
명백한 적합한 예는 콜센터로, 실제 서비스 부분에는 여전히 인간이 필요하지만, 더 정확한 전화 분류로 혜택을 볼 수 있음(2024년에는 키패드 옵션은 사라질 것임!).
또한, 음성 비서들이 동일한 API를 활용하여 더 상호 교환 가능해질 가능성도 있으며, 기술이 민주화되어 앱 스토어에서 더 많은 옵션을 갖게 될 수도 있음.
마지막으로, OpenAI의 실시간 모델은 로봇에서 작동할 수 있음. 다소 비현실적으로 들릴 수 있지만, 더 인간적인 방식으로 소통할 수 있는 로봇이 자동화의 다음 단계가 될 수 있음 - 아니면 스스로 오류를 진단하고 수리 방법을 알려줄 수도 있음.