오늘날의 대규모 AI 모델을 구축하는 데는 수억 달러가 소요될 수 있으며, 몇 년 내에 기하급수적으로 10억 달러에 이를 것이라는 전망이 있다. 이러한 비용의 대부분은 특수 칩에서 나오는 컴퓨팅 파워에 해당하며, 일반적으로 엔비디아 GPU가 사용되며, 수만 개가 필요할 수 있고, 각 칩의 가격은 최대 3만 달러에 이를 수 있다.
하지만 AI 모델을 훈련시키거나 기존 모델을 특정 작업에 맞게 조정하는 기업들은 또 다른 간과되기 쉬운 비용인 데이터 라벨링의 증가로 어려움을 겪고 있다. 데이터 라벨링은 생성 AI 모델이 패턴을 인식하고 해석할 수 있도록 태그가 부착된 데이터로 훈련되는 고된 과정이다.
데이터 라벨링은 자율주행차와 같은 AI 모델을 개발하는 데 오랫동안 사용되어 왔다. 카메라는 보행자, 도로 표지판, 자동차 및 신호등의 이미지를 캡처하고, 인간 주석자는 “보행자”, “트럭” 또는 “정지 신호”와 같은 단어로 이미지를 라벨링한다. 이 노동 집약적인 과정은 윤리적 문제도 제기했다. 2022년 ChatGPT를 출시한 후, OpenAI는 챗봇의 독성을 줄이는 데 도움을 준 데이터 라벨링 작업을 아프리카 케냐에서 시간당 2달러도 안 되는 임금을 받는 사람들에게 아웃소싱한 것에 대해 광범위한 비판을 받았다.
오늘날의 일반적인 대형 언어 모델(LLM)은 데이터 라벨링과 관련된 강화 학습 인간 피드백이라는 과정을 거치며, 이 과정에서 인간이 모델이 생성한 결과에 대해 질적 피드백이나 순위를 제공한다. 이는 비용 상승의 중요한 원인 중 하나이며, 기업들이 AI 모델에 통합하고자 하는 고객 정보나 내부 기업 데이터와 같은 개인 데이터를 라벨링하는 데 드는 노력도 마찬가지다.
또한 법률, 금융 및 의료와 같은 분야에서 고급 기술 데이터 라벨링이 비용을 증가시키고 있다. 일부 기업들은 특정 데이터를 라벨링하기 위해 고비용의 의사, 변호사, 박사 및 과학자를 고용하거나 Scale AI와 같은 제3자 회사에 아웃소싱하고 있으며, 이 회사는 최근 10억 달러의 자금을 확보하며 연말까지 강력한 수익 성장을 예고했다.
“이제는 라벨링을 위해 변호사가 필요하다. 이는 법률 시간을 미친 듯이 사용하는 것”이라고 AI 개발 플랫폼 Lightning AI의 CEO인 William Falcon이 말했다. “모든 고위험 작업은 전문가 수준의 라벨링이 필요하다”고 그는 설명했다. “가상의 친구와의 대화는 고위험이 아니지만, 법률 조언을 제공하는 것은 고위험이다.”
데이터 라벨링 스타트업 Snorkel AI의 CEO인 Alex Ratner는 기업 고객들이 데이터 라벨링 및 기타 데이터 작업에 수백만 달러를 지출할 수 있으며, 이는 그들의 시간과 AI 예산의 80%를 소모할 수 있다고 말했다. 시간이 지나면서 데이터는 최신 상태를 유지하기 위해 다시 라벨링해야 한다고 그는 덧붙였다.
AI 어시스턴트 스타트업 Otherside AI의 CEO이자 공동 창립자인 Matt Shumer는 LLM을 미세 조정하는 데 드는 비용이 증가했다고 동의했다. “지난 몇 년 동안 우리는 중학교 수준의 데이터가 괜찮았던 것에서 고등학교, 대학, 이제는 전문가 수준의 데이터가 필요하게 되었다”고 그는 말했다. “물론 이는 저렴하지 않다.”
이는 의료와 같은 중요한 분야에서 구축 중인 기술 스타트업들에게 예산 문제를 일으킬 수 있다. 노인 돌봄 플랫폼 CareYaya의 CEO인 Neal Shah는 그의 회사가 존스 홉킨스 대학교로부터 “치매 환자를 위한 세계 최초의 AI 돌봄 훈련기”를 구축하기 위한 보조금을 받았지만, 데이터 라벨링 비용이 “우리를 죽이고 있다”고 말했다. 그는 전문 정보가 필요하기 때문에 비용이 지난 1년 동안 40% 급증했다고 덧붙였다. 그는 의료 학생들과 대학 교수들을 라벨링 작업에 참여시켜 비용을 줄이기 위해 노력하고 있다.
공급망 모델링을 전문으로 하는 데이터 과학 회사 Oii.ai의 CEO인 Bob Rogers는 수백만 달러가 드는 데이터 라벨링 프로젝트를 보았다고 말했다. 그는 BeeKeeper AI와 같은 플랫폼이 여러 기업이 전문가, 데이터 및 알고리즘을 공유할 수 있도록 하여 비용을 낮출 수 있다고 말했다. 이때 각 기업은 다른 기업에 자신의 개인 데이터를 노출하지 않는다.
Domino Data Lab의 AI 전략 책임자인 Kjell Carlsson은 일부 기업들이 “합성” 데이터, 즉 AI 자체가 생성한 데이터를 사용하여 데이터 수집 및 라벨링을 부분적으로 자동화하여 비용을 낮추고 있다고 덧붙였다. 경우에 따라 모델이 모든 데이터 라벨링을 완전히 자동화할 수 있다. 예를 들어, 생명공학 제약 회사들은 대장암, 당뇨병 및 심장병과 같은 질환을 위한 합성 단백질 개발을 위해 생성 AI 모델을 훈련시키고 있으며, 이들은 생성 AI 모델의 출력을 기반으로 실험을 자동으로 수행하여 라벨이 있는 새로운 훈련 데이터를 제공한다.
하지만 결론적으로 데이터 라벨링은 비용이 많이 들고 시간이 많이 소요될 수 있지만, 그만한 가치가 있다. “데이터 라벨링은 괴물이다”라고 CareYaya의 Shah가 말했다. “하지만 잠재적인 보상은 엄청나다.”