X(구 트위터) 프리미엄 구독자는 이제 Grok AI 어시스턴트에게 이미지를 설명해 달라고 요청할 수 있게 됨. 엘론 머스크 소속의 회사 xAI가 시각 콘텐츠 분석을 위한 새로운 기능을 공개했으며, Grok-2 AI 모델을 사용해 사진, 도표 및 기타 스냅샷을 설명할 수 있는 능력을 부여함.
이 기능은 Grok을 ChatGPT, Gemini 및 기타 경쟁자들과 동등한 수준으로 끌어올림. X의 구독 계획에 가입하면 지금 바로 X의 이미지 게시물에서 버튼을 클릭하고 Grok에게 이미지에 대한 질문을 하거나 단순한 설명 분석을 요청할 수 있음.
새로운 기능과 함께 Grok은 RealWorldQA라는 새로운 벤치마크를 선보였으며, 이는 모델이 실제 이미지를 얼마나 잘 설명할 수 있는지를 보여주기 위한 것임. 회사는 RealWorldQA가 Grok이 경쟁자들보다 이미지 설명을 잘 한다고 주장하고 있으며, 아직 개발 중임에도 불구하고 그 성능을 보여줌.
스크린샷에서 볼 수 있듯이 Grok은 복잡한 다단계 이미지를 분해하고 그 안에서 무슨 일이 일어나는지를 설명할 수 있음. 또한 농담의 유머를 추론할 수 있지만, 농담을 설명하면 거의 항상 덜 웃기게 됨. 그럼에도 불구하고 이는 xAI가 Grok을 위한 새로운 기능, 특히 다중 모드 도구를 계속해서 출시하고 있다는 신호임. 이는 Grok이 시각 콘텐츠와 같은 방식으로 오디오 및 비디오 콘텐츠를 설명할 수 있는 단계가 될 수 있음.
언급되지 않은 한 가지 요소는 Grok의 시각 분석이 저작권 문제에 대해 별로 개의치 않는 AI 챗봇의 자유로운 이미지 생성 방식을 어떻게 묘사할 것인지임. 이는 닌텐도의 저작권 침해 사냥꾼인 Tracer가 그들을 상대로 소송을 제기했을 때 마리오의 이미지를 만든 사용자들이 직면했던 문제임. 마리오나 다른 지적 재산의 AI 이미지가 그렇게 묘사될지 아니면 더 일반적인 용어로 묘사될지는 흥미로운 발견이 될 것임.
xAI의 소유자가 누구인지 고려할 때, 이 기능은 머스크 소속의 다른 기술 회사에서도 분명한 잠재력을 가짐. 테슬라의 반자율 주행은 주변의 사람과 물체를 식별하고 그 간격을 파악하는 데 분명히 도움이 될 것임. 이는 테슬라가 지난 몇 년간 개발해온 인간형 로봇에도 마찬가지임.