이 이야기를 들어보세요
많은 기다림 끝에 OpenAI가 드디어 ChatGPT 앱의 모든 Plus 및 Team 사용자에게 고대하던 고급 음성 기능을 출시하기 시작함. 이번 출시 작업은 일주일에 걸쳐 완료될 예정이며, 접근 권한이 부여되면 앱에서 알림이 나타남.
새로운 기능은 다섯 가지의 독특한 음성을 도입하고 50개 이상의 언어를 지원하여 사용자가 다양한 억양으로 응답을 들을 수 있게 함. 고급 음성 기능은 이제 사용자 맞춤 지침 설정 기능도 포함되어 있어, AI가 음성으로 상호작용하는 방식에 대한 특정 선호도를 설정할 수 있어 전반적인 경험을 향상시킴.
고급 음성 기능은 다양한 개선 사항을 제공하지만, 현재 유럽 연합, 영국, 스위스, 아이슬란드, 노르웨이 및 리히텐슈타인에서는 사용할 수 없음.
이번 출시 작업은 사용자 맞춤 지침, 메모리 및 향상된 음성 억양 추가 등 ChatGPT 앱에 대한 여러 주요 업데이트에 이어 진행됨.
OpenAI는 올해 초 최신 봄 업데이트 행사에서 GPT-4o를 출시했으며, 텍스트, 비전 및 오디오 전반에 걸친 '옴니' 기능으로 많은 사랑을 받음. OpenAI의 데모에는 실시간 번역기, 코딩 도우미, AI 튜터, 친근한 동반자, 시인 및 가수가 포함되어 있었으며, 곧 화제가 됨. 그러나 고급 음성 모드는 출시되지 않음.
OpenAI는 혼자가 아님
최근 프랑스 비영리 AI 연구소인 Kyutai가 Moshi라는 실시간 네이티브 다중 모달 기초 AI 모델을 출시했으며, 이는 OpenAI의 고급 모델이 의도했던 것처럼 인간과 실시간으로 대화할 수 있음.
Hume AI는 인간과 유사한 상호작용을 향상시키겠다고 약속하는 새로운 기초 음성 대 음성 AI 모델인 EVI 2를 소개함. 베타 버전으로 제공되는 EVI 2는 사용자와 빠르고 유창한 대화를 나누며, 톤을 해석하고 그에 따라 응답을 조정할 수 있음. 이 모델은 다양한 성격, 억양 및 말하기 스타일을 지원하며 다국어 기능도 포함됨.
한편, 아마존 알렉사는 Anthropic과 협력하여 대화 능력을 향상시키고 있으며, 상호작용을 보다 자연스럽고 인간처럼 만들고 있음. 올해 초 구글은 제미니 AI 모델 계열을 기반으로 한 '유니버설 AI 에이전트'인 아스트라를 출시했으며, 아스트라는 다중 모달 처리를 통해 텍스트, 오디오, 비디오 및 시각적 입력을 동시에 이해하고 응답할 수 있음.