NewsGPT

AI 모델 구축 비용의 주요 원인은 데이터 라벨링의 증가
전문가 수준의 데이터 라벨링이 필요해지면서 비용이 급증
AI 기술 발전에 따른 윤리적 문제와 비용 문제의 동시 해결 필요

오늘날의 대규모 AI 모델을 구축하는 데는 수억 달러가 소요될 수 있으며, 몇 년 내에 기하급수적으로 10억 달러에 이를 것이라는 전망이 있다. 이러한 비용의 대부분은 특수 칩에서 나오는 컴퓨팅 파워에 해당하며, 일반적으로 엔비디아 GPU가 사용되며, 수만 개가 필요할 수 있고, 각 칩의 가격은 최대 3만 달러에 이를 수 있다.

하지만 AI 모델을 훈련시키거나 기존 모델을 특정 작업에 맞게 조정하는 기업들은 또 다른 간과되기 쉬운 비용인 데이터 라벨링의 증가로 어려움을 겪고 있다. 데이터 라벨링은 생성 AI 모델이 패턴을 인식하고 해석할 수 있도록 태그가 부착된 데이터로 훈련되는 고된 과정이다.

데이터 라벨링은 자율주행차와 같은 AI 모델을 개발하는 데 오랫동안 사용되어 왔다. 카메라는 보행자, 도로 표지판, 자동차 및 신호등의 이미지를 캡처하고, 인간 주석자는 “보행자”, “트럭” 또는 “정지 신호”와 같은 단어로 이미지를 라벨링한다. 이 노동 집약적인 과정은 윤리적 문제도 제기했다. 2022년 ChatGPT를 출시한 후, OpenAI는 챗봇의 독성을 줄이는 데 도움을 준 데이터 라벨링 작업을 아프리카 케냐에서 시간당 2달러도 안 되는 임금을 받는 사람들에게 아웃소싱한 것에 대해 광범위한 비판을 받았다.

오늘날의 일반적인 대형 언어 모델(LLM)은 데이터 라벨링과 관련된 강화 학습 인간 피드백이라는 과정을 거치며, 이 과정에서 인간이 모델이 생성한 결과에 대해 질적 피드백이나 순위를 제공한다. 이는 비용 상승의 중요한 원인 중 하나이며, 기업들이 AI 모델에 통합하고자 하는 고객 정보나 내부 기업 데이터와 같은 개인 데이터를 라벨링하는 데 드는 노력도 마찬가지다.

또한 법률, 금융 및 의료와 같은 분야에서 고급 기술 데이터 라벨링이 비용을 증가시키고 있다. 일부 기업들은 특정 데이터를 라벨링하기 위해 고비용의 의사, 변호사, 박사 및 과학자를 고용하거나 Scale AI와 같은 제3자 회사에 아웃소싱하고 있으며, 이 회사는 최근 10억 달러의 자금을 확보하며 연말까지 강력한 수익 성장을 예고했다.

“이제는 라벨링을 위해 변호사가 필요하다. 이는 법률 시간을 미친 듯이 사용하는 것”이라고 AI 개발 플랫폼 Lightning AI의 CEO인 William Falcon이 말했다. “모든 고위험 작업은 전문가 수준의 라벨링이 필요하다”고 그는 설명했다. “가상의 친구와의 대화는 고위험이 아니지만, 법률 조언을 제공하는 것은 고위험이다.”

데이터 라벨링 스타트업 Snorkel AI의 CEO인 Alex Ratner는 기업 고객들이 데이터 라벨링 및 기타 데이터 작업에 수백만 달러를 지출할 수 있으며, 이는 그들의 시간과 AI 예산의 80%를 소모할 수 있다고 말했다. 시간이 지나면서 데이터는 최신 상태를 유지하기 위해 다시 라벨링해야 한다고 그는 덧붙였다.

AI 어시스턴트 스타트업 Otherside AI의 CEO이자 공동 창립자인 Matt Shumer는 LLM을 미세 조정하는 데 드는 비용이 증가했다고 동의했다. “지난 몇 년 동안 우리는 중학교 수준의 데이터가 괜찮았던 것에서 고등학교, 대학, 이제는 전문가 수준의 데이터가 필요하게 되었다”고 그는 말했다. “물론 이는 저렴하지 않다.”

이는 의료와 같은 중요한 분야에서 구축 중인 기술 스타트업들에게 예산 문제를 일으킬 수 있다. 노인 돌봄 플랫폼 CareYaya의 CEO인 Neal Shah는 그의 회사가 존스 홉킨스 대학교로부터 “치매 환자를 위한 세계 최초의 AI 돌봄 훈련기”를 구축하기 위한 보조금을 받았지만, 데이터 라벨링 비용이 “우리를 죽이고 있다”고 말했다. 그는 전문 정보가 필요하기 때문에 비용이 지난 1년 동안 40% 급증했다고 덧붙였다. 그는 의료 학생들과 대학 교수들을 라벨링 작업에 참여시켜 비용을 줄이기 위해 노력하고 있다.

공급망 모델링을 전문으로 하는 데이터 과학 회사 Oii.ai의 CEO인 Bob Rogers는 수백만 달러가 드는 데이터 라벨링 프로젝트를 보았다고 말했다. 그는 BeeKeeper AI와 같은 플랫폼이 여러 기업이 전문가, 데이터 및 알고리즘을 공유할 수 있도록 하여 비용을 낮출 수 있다고 말했다. 이때 각 기업은 다른 기업에 자신의 개인 데이터를 노출하지 않는다.

Domino Data Lab의 AI 전략 책임자인 Kjell Carlsson은 일부 기업들이 “합성” 데이터, 즉 AI 자체가 생성한 데이터를 사용하여 데이터 수집 및 라벨링을 부분적으로 자동화하여 비용을 낮추고 있다고 덧붙였다. 경우에 따라 모델이 모든 데이터 라벨링을 완전히 자동화할 수 있다. 예를 들어, 생명공학 제약 회사들은 대장암, 당뇨병 및 심장병과 같은 질환을 위한 합성 단백질 개발을 위해 생성 AI 모델을 훈련시키고 있으며, 이들은 생성 AI 모델의 출력을 기반으로 실험을 자동으로 수행하여 라벨이 있는 새로운 훈련 데이터를 제공한다.

하지만 결론적으로 데이터 라벨링은 비용이 많이 들고 시간이 많이 소요될 수 있지만, 그만한 가치가 있다. “데이터 라벨링은 괴물이다”라고 CareYaya의 Shah가 말했다. “하지만 잠재적인 보상은 엄청나다.”

🤖 NewsGPT Opinion

AI 모델의 비용이 급증하는 이유가 단순히 엔비디아 칩 때문만은 아니라는 점이 흥미롭다. 데이터 라벨링이라는 과정이 이렇게 중요한 역할을 하고 있다는 사실은 많은 사람들이 간과하고 있는 부분이다. 특히, 고급 기술 데이터 라벨링이 필요해지면서 비용이 급증하는 현상은 기술 스타트업들에게 큰 부담이 될 수 있다.

이런 상황에서 기업들이 어떻게 비용을 절감할 수 있을지 고민하는 모습이 보인다. 예를 들어, 합성 데이터를 활용하거나 여러 기업이 전문가를 공유하는 방식은 좋은 대안이 될 수 있다. 하지만 결국 데이터 라벨링의 중요성을 간과해서는 안 된다. 이는 AI 모델의 성능을 좌우하는 핵심 요소이기 때문이다.

또한, 데이터 라벨링 과정에서 윤리적 문제도 함께 고려해야 한다. 저임금 국가에서 아웃소싱된 데이터 라벨링 작업이 과연 정당한 것인지에 대한 논의가 필요하다. AI 기술이 발전함에 따라 이러한 윤리적 문제는 더욱 부각될 것이다.

결국, AI의 발전은 비용과 윤리적 문제를 동시에 해결해야 하는 도전 과제를 안고 있다. 기업들이 이러한 문제를 해결하기 위해 노력하는 모습이 기대된다. AI 기술이 더 나은 방향으로 발전하기 위해서는 이러한 문제들을 해결하는 것이 필수적이다.

마지막으로, 데이터 라벨링의 중요성을 다시 한번 강조하고 싶다. 이는 단순한 비용이 아니라, AI의 미래를 결정짓는 중요한 요소이기 때문이다. 기업들이 이 부분에 대한 투자를 아끼지 않기를 바란다.

🔗 Share this article

페이스북 트위터 링크드인

AI 비용 급증의 숨겨진 이유, 엔비디아 칩 때문이 아니다

🤖 NewsGPT Opinion

🔗 Share this article

🏷️ Related Tags

📰 Next News

메타, 미국 공무원 겨냥한 이란 해킹 시도 차단

이란 해커, 바이든과 트럼프 행정부 직원의 WhatsApp 계정 공격 시도