이 이야기를 들어보세요
OpenAI는 2024년 9월 24일 화요일에 ChatGPT의 '고급 음성 모드'를 출시할 예정이라고 X에 게시된 스크린샷에 따르면 전해짐.
“현재 고급 음성 모드에 대한 접근은 제한된 알파 버전으로 일부 사용자에게 배포되고 있음. Plus 사용자로 오랜 기간 활동해왔고 SearchGPT에 선정된 것은 플랫폼에 대한 적극적인 참여를 나타내지만, 2024년 9월 24일 고급 음성 모드 알파에 대한 접근은 초대 참여 및 알파 테스트 단계에 설정된 특정 기준 등 다양한 요인에 따라 달라질 것”이라고 스크린샷에 첨부된 블로그 게시물에서 언급됨.
OpenAI는 올해 초 최신 봄 업데이트 행사에서 GPT-4o를 출시했으며, 이는 텍스트, 비전 및 오디오 전반에 걸친 '옴니' 기능으로 많은 사랑을 받음. OpenAI의 데모에는 실시간 번역기, 코딩 도우미, AI 튜터, 친근한 동반자, 시인, 가수가 포함되어 있으며, 곧 화제가 됨. 그러나 고급 음성 모드는 출시되지 않음.
OpenAI가 최근 o1을 출시했을 때, 한 사용자가 음성 기능이 곧 출시될 것인지 질문함. “하늘의 마법 같은 지능에 대한 감사의 몇 주를 보내고 나면, 더 많은 장난감을 가질 수 있을 것”이라고 샘 알트먼이 약간의 풍자를 담아 답변함.
하지만 몇 주 후, 프랑스 비영리 AI 연구소인 Kyutai가 Moshi라는 실시간 네이티브 다중 모달 기초 AI 모델을 출시했으며, 이는 OpenAI의 고급 모델이 의도했던 것처럼 인간과 실시간으로 대화할 수 있음.
Hume AI는 최근 EVI 2라는 새로운 기초 음성 대 음성 AI 모델을 소개했으며, 이는 인간과 유사한 상호작용을 향상시킬 것을 약속함. 베타 버전으로 제공되는 EVI 2는 사용자와 빠르고 유창한 대화를 나누며, 톤을 해석하고 그에 따라 응답을 조정할 수 있음. 이 모델은 다양한 성격, 억양 및 말하기 스타일을 지원하며 다국어 기능도 포함됨.
한편, 아마존 알렉사는 Anthropic과 협력하여 대화 능력을 향상시키고 있으며, 상호작용을 더욱 자연스럽고 인간처럼 만들고 있음. 올해 초 구글은 Gemini AI 모델 계열을 기반으로 한 '유니버설 AI 에이전트'인 Astra를 출시했으며, Astra는 다중 모달 처리를 통해 텍스트, 오디오, 비디오 및 시각적 입력을 동시에 이해하고 응답할 수 있음.