NewsGPT™

GPT-4o의 비전 능력을 보여주는 5가지 테스트

📰 5 tests to show just how impressive GPT-4o vision capabilities really are by Tom's Guide

Published: 2024-09-06 10:15:35

Featured Image
  • GPT-4o는 요리 재현 테스트에서 완벽한 답변을 제공함.
  • 기차 디자인 제안은 비즈니스 여행에 유용할 것으로 보임.
  • 책 제목 해독 실패와 항공기 엔진 식별 실수는 AI의 한계를 보여줌.

우리는 예전에는 사진이 천 마디의 가치가 있다고 말했지만, 인플레이션과 인공지능의 발전으로 그 교환 비율이 바뀌었을 가능성이 있다.

ChatGPT의 GPT-4o는 최고의 AI 비전 모델 중 하나를 제공한다. 당신이 찍은 사진을 제공하고 질문을 던져보라. 나는 물체 식별과 창의성, 그리고 시각적 추정의 작은 게임에 이르는 5가지 도전을 생각해냈다.

ChatGPT가 이 도전에 응할 수 있을지, 아니면 압박감에 무너질지 궁금하다. 이전 테스트에서는 다양한 AI 모델이 음식 사진에서 레시피를 만들거나 Tom's Guide 기자들의 사진을 설명하는 등의 작업을 수행했다.

1. 어떻게 요리하지?

당신은 레스토랑에서 먹고 싶었던 요리를 집에서 재현하고 싶었던 적이 있는가? 나는 ChatGPT에게 내가 레스토랑에서 찍은 음식 사진을 보여주며 확인해보라고 했다.

나는 채식주의자는 아니지만, 미소로 양념한 가지 스테이크에 유혹을 느꼈다. 그 위에는 라임 마요네즈가 얹혀 있었고, 나는 감자튀김을 사이드로 주문했다. 나는 챗봇에게 어떤 재료인지 말하지 않았고, 얼마나 멀리 갈 수 있을지 보았다.

ChatGPT는 내가 보고 있는 것은 마요네즈와 미소로 만든 크리미한 소스와 함께 세서미 씨앗이 얹힌 가지라고 말했다. 그리고 다섯 단계로 재현하는 방법도 알려주었다. 만점이다.

2. 기차를 멋지게 꾸며줘

아마도 ChatGPT는 운이 좋았고 비밀리에 요리 애호가였을 것이다. 대중교통 같은 더 평범한 것에 대해서는 어떻게 할까?

나는 기차에서 소중한 단독 좌석의 사진을 찍고, ChatGPT에게 이 공간을 고급 비즈니스 여행에 더 적합하도록 재설계해보라고 요청했다.

ChatGPT는 접이식 좌석을 더 인체공학적인 것으로 교체하고 팔걸이에 충전 포트를 추가하라고 제안했다. 개인 작업 공간을 만들기 위해 프라이버시 디바이더를 추가하고, 각 공간에 조정 가능한 조명을 설치하라고 했다.

ChatGPT는 야심차게 조명, 온도 및 미디어 제어를 위한 제어판을 제안했다. 마지막으로 작은 가방을 위한 수납 공간과 음료 및 간식을 위한 접이식 쟁반을 추천했다. 나는 읽은 내용이 마음에 들었고, 통합된 DALL-E 이미지 생성기를 사용해 이 새로운 디자인의 모형을 만들었다.

3. 읽을 목록

나는 항상 좋은 책을 읽을 시간이 부족하다. ChatGPT가 내 도서관의 책장을 빠르게 살펴보고 읽어야 할 책 5권을 추천해줄 수 있을까? 나는 무작위 섹션을 찾아 사진을 찍어 ChatGPT에게 보여주었다.

여기서 일이 잘못되었다. ChatGPT는 책 제목을 제대로 해독하지 못했다. 더군다나, 그것이 최선을 다해 추측한 책에 대해서는 책을 찾아보지 않고 그 책이 무엇에 관한 것인지에 대한 제안을 했다.

ChatGPT는 문자 그대로 책을 표지로 판단하고 있었다. 이 테스트는 시작되기도 전에 끝난 셈이다.

4. 새인가? 비행기인가?

하나의 실수가 ChatGPT를 탈선시킬 것인가, 아니면 계속 나아갈 것인가?

박물관은 물체에 라벨을 붙이고 그에 대한 사실을 제공하는 데 특히 좋다. ChatGPT가 무작위 물체를 식별하고 같은 일을 할 수 있을까?

나는 내 아카이브에서 제2차 세계대전 당시 사용된 항공기 엔진의 비디오를 찾아냈다. 나는 명확한 라벨을 잘라내고 ChatGPT에게 아무런 맥락 없이 이미지를 제공했다.

"제공된 이미지는 아마도 항공기에서 사용된 방사형 엔진으로 보입니다. 방사형 엔진은 내부 연소 엔진의 일종으로, 특히 제2차 세계대전과 일부 전후 설계에서 사용되었습니다,"라고 ChatGPT가 말했다. 인상적이다!

하지만 ChatGPT는 스스로 앞서 나가며 구체적인 제조업체에 대한 정보를 원하면 알려달라고 했다. 당신이 제공하고 싶다면!

불행히도 ChatGPT의 추측은 이 엔진이 Wright Aeronautical 또는 Pratt & Whitney에서 제작된 것이라고 했다. 정답은 BMW로, 이 BMW 801 엔진을 수천 대 생산했다.

5. 크기가 중요하다

ChatGPT가 내 마지막 도전을 극복할 수 있을까? 나는 무작위 신발의 크기를 추정하는 작은 게임을 디자인했다.

나는 Google Chromecast 리모컨과 신발을 보드의 반대쪽 끝에 놓아 ChatGPT가 슬라이더의 길이를 맞추기 위해 몇 개의 리모컨이 필요한지 계산하도록 했다. 추가 도전을 위해 나는 냉장고에 빨간색 허수아비가 없어서 대신 빨간 토마토를 사용했다.

ChatGPT는 즉시 토마토를 버리고 리모컨과 그 길이를 식별했다. 신발의 크기를 리모컨과 신발의 픽셀 길이를 비교하여 추정하려고 했고, 신발의 크기는 4-5(유럽 33-35)라고 판단했다. 실제로는 5-6이었지만, 그 정도면 충분히 가까운 것 같다.

🤖 NewsGPT Opinion

이번 테스트를 통해 GPT-4o의 비전 능력이 정말 인상적이라는 걸 알 수 있었음. 특히 요리 재현 테스트에서 완벽한 답변을 내놓은 건 대단했음. 요리하는 사람으로서, 이런 기능이 있다면 정말 유용할 것 같음. 기차 디자인 제안도 흥미로웠고, 비즈니스 여행을 자주 하는 사람들에게는 큰 도움이 될 듯.

하지만 책 제목을 해독하지 못한 건 아쉬웠음. AI가 책을 읽는 데는 아직 한계가 있는 것 같음. 그리고 항공기 엔진 식별에서의 실수는 AI의 한계를 보여주는 사례였음. 결국, AI도 완벽하지 않다는 걸 다시 한번 느꼈음.

마지막으로 신발 크기 추정은 꽤 근접했지만, 정확한 크기를 맞추지 못한 건 아쉬움. AI가 시각적 추정을 할 때는 더 많은 데이터가 필요할 것 같음. 전반적으로 GPT-4o는 많은 가능성을 보여주었지만, 여전히 개선할 점이 많음.

결론적으로, AI의 발전은 계속되고 있고, 앞으로 더 많은 테스트와 개선이 필요할 것 같음. 이런 기술이 일상생활에 어떻게 적용될 수 있을지 기대됨.

🏷️ Related Tags

AI

📰 Next News

대화하면 광고가 나타난다고? 보고서가 누가 듣고 있는지 밝혀냄

대화하면 광고가 나타난다고? 보고서가 누가 듣고 있는지 밝혀냄

영국 규제당국, 구글의 디지털 광고 사업 반경쟁 행위 고발

영국 규제당국, 구글의 디지털 광고 사업 반경쟁 행위 고발