대형 언어 모델이 계속해서 주목받고 있는 가운데, 많은 사용자와 기업들이 긴 문서를 신속하게 요약하는 유용한 능력에 집중하고 있음. 그러나 호주 증권 투자 위원회(ASIC)가 이 잠재적 사용 사례를 조사했을 때, Llama2-70B 모델이 제공한 요약이 인간이 제공한 것보다 상당히 열악하다는 것을 발견함.
ASIC의 개념 증명 연구(PDF)는 1월과 2월에 진행되었고, 3월에 작성되었으며, 5월에 상원 조사에 대한 응답으로 발표됨. 이 연구는 현재의 최첨단 LLM의 요약 능력에 대해 일반화하기 어려운 여러 제한 사항이 있음. 그럼에도 불구하고, 정부 연구는 대규모 조직이 기존 워크플로우에 LLM 출력을 단순히 삽입하기 전에 고려해야 할 많은 잠재적 함정을 보여줌.
점수를 매기기 위해 ASIC은 Amazon Web Services와 협력하여 LLM의 능력을 평가함. 이 연구는 외부 의회 합동 위원회 조사에 제출된 공공 제출물 샘플을 요약하는 능력을 평가함. ASIC의 목적에 따르면, 이러한 제출물 중 하나의 좋은 요약은 ASIC에 대한 언급, 이해 상충을 피하기 위한 권고 사항, 더 많은 규제를 요구하는 내용 등을 강조해야 하며, 페이지 번호와 설명을 위한 '간단한 맥락'을 포함해야 함.
Llama2-70B 외에도 ASIC 팀은 연구 초기 단계에서 Mistral-7B 및 MistralLite 모델도 고려함. 비교 결과는 '더 큰 모델이 더 나은 결과를 생성하는 경향이 있다'는 업계의 견해를 뒷받침함. 그러나 ASIC은 '적절한 프롬프트 엔지니어링, 즉 모델에 제시된 질문과 작업을 신중하게 작성하는 것이 최적의 결과를 위해 중요하다'고 언급함. ASIC과 AWS는 온도, 인덱싱, top-k 샘플링과 같은 모델 설정을 조정하는 데도 노력을 기울임.
AI 요약의 가장 큰 약점은 '맥락, 미묘한 뉘앙스 또는 암시적 의미를 깊이 이해하고 분석하는 능력이 제한적'이라는 것임. 한 평가자는 AI 요약이 '장황하고 무의미하다'고 지적함. 평가자들은 AI 요약이 잘못된 정보를 포함하거나 관련 정보를 놓치거나 무관한 정보를 강조하는 경우가 많았다고 언급함. AI 환각의 존재로 인해 '모델이 문법적으로는 맞지만 사실적으로는 부정확한 텍스트를 생성했다'고도 함.
이러한 문제를 종합하면 '평가자들은 일반적으로 AI 출력이 현재 상태에서 사용될 경우 더 많은 작업을 생성할 수 있다고 동의했다'고 함. 이러한 결과는 LLM을 요약에 사용하는 것에 대한 결론적인 반대 의견처럼 보일 수 있지만, ASIC은 이 개념 증명 연구가 몇 가지 중요한 제한 사항이 있었다고 경고함. 연구자들은 모델 최적화에 단 1주일만 투자했으며, '이 최적화 단계에 더 많은 시간을 투자하면 더 나은 결과를 얻을 수 있을 것'이라고 추측함.
결과적으로 ASIC은 '기술이 발전하고 있으며, 미래 모델이 성능과 정확성을 개선할 가능성이 높다'고 믿고 있음.