메타는 기술 기업들이 기술과 상호작용하는 방식으로 음성을 채택하는 추세에 동참하고 있다. 메타는 OpenAI의 ChatGPT Voice, 구글의 Gemini Voice, 그리고 아마존의 알렉사와 애플의 시리와 함께 음성 비서 시장에 진입했다.
시리와 알렉사와는 달리 메타AI 음성은 대화형 카테고리에 속한다. 이는 사람들이 키보드나 터치 스크린 없이 레이밴 스마트 안경, 퀘스트 VR 헤드셋 및 일반 장치와 상호작용할 수 있는 더 나은 방법이 필요했기 때문이다.
대화형 AI 음성은 사용자가 인간과 대화하듯 자연어로 AI와 대화할 수 있게 해준다. 이는 복잡하고 모호한 질문을 처리할 수 있도록 한다. 예를 들어, 메타 커넥트 데모에서 마크 저커버그는 아보카도를 레이밴 스마트 안경 앞에 들고 "이걸로 무엇을 만들 수 있을까?"라고 말할 수 있다고 제안했다.
하지만 메타는 구글과 OpenAI가 하지 않은 것을 했다. 유명인의 목소리를 제공하는 것이다. 처음에는 다임 주디 덴치, 존 시나, 크리스틴 벨 등의 목소리로 대화할 수 있다.
안타깝게도 합성 음성의 품질은 Gemini나 ChatGPT Voice에 비해 떨어지지만, 중간에 대화를 끊고 같은 수준의 자연스러운 질문을 할 수 있다. 이는 WhatsApp, Facebook Messenger, Instagram에서 접근할 수 있다.
메타AI 음성이 중요한 이유는 무엇일까?
메타AI 음성이 ChatGPT 고급 음성보다 덜 현실적이고 자연스럽지만, 메타 생태계 덕분에 유리한 점이 있다. 전 세계에서 30억 명 이상의 사람들이 매일 메타의 핵심 제품 중 하나를 사용하고 있다. 메타AI는 4억 명 이상의 활성 월간 사용자를 보유하고 있으며, 현재로서는 미국에서만 사용할 수 있다.
텍스트 기반 버전은 모든 핵심 제품에 존재하며, WhatsApp, Instagram, Facebook 또는 Messenger에서 열어도 동일하게 보인다. 현재 이미지를 생성하고, 텍스트 기반 대화를 나누고, 게임을 할 수 있다. 음성을 사용하면 책상에 두고 다른 작업을 하면서 대화할 수 있다.
메타AI는 이제 Llama 3.2 90b를 "두뇌"로 사용한다. 이는 메타의 새로운 다중 모달 모델로, 이미지와 텍스트를 분석할 수 있다. 향후 버전은 더 많은 소리, 문서, 심지어 비디오와도 작업할 수 있을 것으로 보인다.
이는 매일 사용하는 앱의 버튼 하나로 AI와 대화할 수 있게 해준다. 방금 찍은 사진을 제공하고, 이미지의 세부 정보를 요청하거나, 보기 싫은 쓰레기통을 제거하는 등의 작업을 할 수 있다.
메타AI 음성의 진정한 힘은 레이밴 스마트 안경이나 퀘스트 헤드셋을 착용한 사람들에게 느껴질 것이다. 이 장치들은 사용자가 보는 세상을 인식하고, 사용자가 보는 모든 것에 대해 AI와 실시간으로 대화할 수 있게 해준다.