8월 7일, OpenAI CEO 샘 올트먼이 자신의 X 계정에 두 개의 화분에서 자라는 딸기 사진을 올림. 이 트윗은 OpenAI가 새로운 강력한 대형 언어 모델(LLM)을 개발 중이라는 확인으로 여겨짐.
OpenAI는 새로운 모델의 버전을 국가 안보 관계자들에게 시연한 것으로 보도됨. 이는 AI의 빠른 발전이 국가 정부들 사이에서 심각한 보안 우려를 불러일으키는 시점에서 투명성에 대한 의지를 나타내는 것으로 보임.
캘리포니아에 본사를 둔 영향력 있는 기술 산업 매체인 더 인포메이션은 8월 26일 프로젝트 스트로베리가 기존의 어떤 챗봇보다 수학과 프로그래밍에 더 능숙할 것이라고 보도함. 이 보도는 “이 노력에 참여한 두 사람”의 말을 인용함.
챗GPT와의 통합은 후자를 가장 강력한 AI 챗봇으로 만들 것이라고 보고됨. 챗GPT는 때때로 수학 문제에서 어려움을 겪었으며, 전문가들은 이러한 오류가 훈련 데이터에 적절한 수학 정보가 부족하기 때문일 수 있다고 생각함.
더 인포메이션의 보도에 따르면, 프로젝트 스트로베리 직원들이 시연한 결과 새로운 AI 모델이 고급 수준의 사고를 할 수 있어, 특히 어려운 단어 퍼즐인 뉴욕 타임스의 '연결'을 포함한 퍼즐을 해결할 수 있었음.
프로젝트 스트로베리는 OpenAI가 다음 프론티어 모델인 오리온을 위해 필요한 자본을 늘리는 것을 목표로 하고 있음. 오리온을 위한 고품질 훈련 데이터 생성이 프로젝트 스트로베리의 주요 응용 프로그램 중 하나로 여겨짐. 이는 인터넷에 있는 대부분의 훈련 데이터가 이미 사용되었고, 현재는 유료 장벽과 인증을 넘어 자유롭게 접근할 수 있는 정보가 부족하기 때문임. 실제로 OpenAI는 최근 출판물과의 거래를 통해 그들의 콘텐츠를 훈련에 사용하고 있음.
GPT-4를 초월하도록 설계된 프로젝트 오리온은 프로젝트 스트로베리와 고품질 합성 데이터를 결합하여 이전 모델들과 다른 AI 모델들에 비해 오류와 환각을 줄일 수 있을 것으로 보임.
올트먼은 AI 모델을 훈련시키기 위한 다양한 방법을 시도하기 위해 OpenAI가 대량의 합성 데이터를 생성하는 방법을 테스트하고 있다고 말함. 생성적 AI 모델은 실제 데이터 샘플을 기반으로 합성 데이터를 생성함. 알고리즘은 샘플 데이터의 패턴, 상관관계 및 통계적 특성을 학습함; 훈련이 완료된 후 모델은 통계적으로 동일한 합성 데이터를 생성할 수 있음.
AI 모델이 의존하는 대규모 데이터 세트는 편향과 오류에 취약할 수 있으며, 불완전하거나 부정확한 정보를 포함할 수 있음. 프로젝트 스트로베리에서 생성된 고품질 합성 데이터는 실제 데이터 세트의 공백을 메우고 보다 포괄적이고 균형 잡힌 훈련 세트를 제공할 수 있음.
많은 사람들은 합성 데이터의 사용이 미래의 AI 모델을 더 중립적이고 공정하게 만들고, 잡음과 관련 없는 정보를 줄여 훈련의 효율성과 모델의 정확성을 향상시킬 수 있다고 믿고 있음.
프로젝트 스트로베리의 향상된 추론, 논리 및 연구를 계획하고 수행할 수 있는 능력은 모델이 자율적으로 실험을 수행하고 데이터를 분석하며 새로운 가설을 제시할 수 있게 할 수 있음. 이는 새로운 약물 발견을 포함한 과학적 혁신으로 이어질 수 있음. 모델은 또한 개인화된 교육을 제공하고 교육 콘텐츠 및 상호작용 수업을 생성할 수 있음.