NewsGPT™

호주 정부 시험, AI가 인간보다 요약을 더 못한다는 결과

📰 Australian government trial finds AI is much worse than humans at summarizing by Ars Technica

Published: 2024-09-04 18:34:04

Featured Image
  • AI 요약이 인간 요약보다 전반적으로 열악하다는 결과
  • AI는 복잡한 내용을 분석하고 요약하는 데 한계가 있음
  • AI 기술 발전에도 불구하고 현재 상태에서는 인간의 직관이 더 중요함

대형 언어 모델이 계속해서 주목받고 있는 가운데, 많은 사용자와 기업들이 긴 문서를 신속하게 요약하는 유용한 능력에 집중하고 있음. 그러나 호주 증권 투자 위원회(ASIC)가 이 잠재적 사용 사례를 조사했을 때, Llama2-70B 모델이 제공한 요약이 인간이 제공한 것보다 상당히 열악하다는 것을 발견함.

ASIC의 개념 증명 연구(PDF)는 1월과 2월에 진행되었고, 3월에 작성되었으며, 5월에 상원 조사에 대한 응답으로 발표됨. 이 연구는 현재의 최첨단 LLM의 요약 능력에 대해 일반화하기 어려운 여러 제한 사항이 있음. 그럼에도 불구하고, 정부 연구는 대규모 조직이 기존 워크플로우에 LLM 출력을 단순히 삽입하기 전에 고려해야 할 많은 잠재적 함정을 보여줌.

점수를 매기기 위해 ASIC은 Amazon Web Services와 협력하여 LLM의 능력을 평가함. 이 연구는 외부 의회 합동 위원회 조사에 제출된 공공 제출물 샘플을 요약하는 능력을 평가함. ASIC의 목적에 따르면, 이러한 제출물 중 하나의 좋은 요약은 ASIC에 대한 언급, 이해 상충을 피하기 위한 권고 사항, 더 많은 규제를 요구하는 내용 등을 강조해야 하며, 페이지 번호와 설명을 위한 '간단한 맥락'을 포함해야 함.

Llama2-70B 외에도 ASIC 팀은 연구 초기 단계에서 Mistral-7B 및 MistralLite 모델도 고려함. 비교 결과는 '더 큰 모델이 더 나은 결과를 생성하는 경향이 있다'는 업계의 견해를 뒷받침함. 그러나 ASIC은 '적절한 프롬프트 엔지니어링, 즉 모델에 제시된 질문과 작업을 신중하게 작성하는 것이 최적의 결과를 위해 중요하다'고 언급함. ASIC과 AWS는 온도, 인덱싱, top-k 샘플링과 같은 모델 설정을 조정하는 데도 노력을 기울임.

AI 요약의 가장 큰 약점은 '맥락, 미묘한 뉘앙스 또는 암시적 의미를 깊이 이해하고 분석하는 능력이 제한적'이라는 것임. 한 평가자는 AI 요약이 '장황하고 무의미하다'고 지적함. 평가자들은 AI 요약이 잘못된 정보를 포함하거나 관련 정보를 놓치거나 무관한 정보를 강조하는 경우가 많았다고 언급함. AI 환각의 존재로 인해 '모델이 문법적으로는 맞지만 사실적으로는 부정확한 텍스트를 생성했다'고도 함.

이러한 문제를 종합하면 '평가자들은 일반적으로 AI 출력이 현재 상태에서 사용될 경우 더 많은 작업을 생성할 수 있다고 동의했다'고 함. 이러한 결과는 LLM을 요약에 사용하는 것에 대한 결론적인 반대 의견처럼 보일 수 있지만, ASIC은 이 개념 증명 연구가 몇 가지 중요한 제한 사항이 있었다고 경고함. 연구자들은 모델 최적화에 단 1주일만 투자했으며, '이 최적화 단계에 더 많은 시간을 투자하면 더 나은 결과를 얻을 수 있을 것'이라고 추측함.

결과적으로 ASIC은 '기술이 발전하고 있으며, 미래 모델이 성능과 정확성을 개선할 가능성이 높다'고 믿고 있음.

🤖 NewsGPT Opinion

이번 ASIC의 연구 결과는 AI가 요약 작업에서 인간보다 못하다는 점을 명확히 보여줌. 사실, AI가 생성한 요약이 너무 일반적이고, 중요한 뉘앙스를 놓치는 경우가 많다는 건 꽤 충격적임. 요약이란 단순히 내용을 줄이는 게 아니라, 핵심을 파악하고 맥락을 이해하는 게 중요함. AI는 그 부분에서 한계를 보인 것 같음.

또한, AI가 잘못된 정보를 포함하거나 무관한 내용을 강조하는 경우가 많다는 점도 문제임. 이러면 오히려 더 많은 검증 작업이 필요해질 수 있음. 결국, AI를 도구로 사용하는 건 좋지만, 그 결과물을 맹신해서는 안 된다는 교훈을 주는 것 같음. AI가 발전하고 있지만, 아직은 인간의 직관과 이해력이 더 중요하다는 걸 다시 한번 느끼게 됨.

물론, AI 기술이 계속 발전하고 있다는 점은 긍정적임. 앞으로 더 나은 모델들이 등장할 것이고, 그때는 요약 작업에서도 인간과 비슷한 수준의 성과를 낼 수 있을지도 모름. 하지만 지금은 AI를 보조 도구로 활용하는 게 최선인 것 같음. AI가 모든 걸 해결해줄 거라는 기대는 잠시 접어두는 게 좋겠음.

결국, AI의 발전은 우리에게 많은 가능성을 열어주지만, 그 가능성을 실현하기 위해서는 인간의 지혜와 경험이 여전히 필요하다는 걸 잊지 말아야 함. AI가 인간의 능력을 대체하기보다는 보완하는 방향으로 나아가길 바람.

마지막으로, AI가 요약 작업에서 인간보다 못하다는 이번 연구 결과는 앞으로의 AI 개발 방향에 대한 중요한 시사점을 제공함. AI가 더 나은 성과를 내기 위해서는 무엇보다도 '맥락 이해'와 '미묘한 뉘앙스'를 파악하는 능력을 키워야 할 것임.

🏷️ Related Tags

AI

📰 Next News

당신의 아이폰은 애플 인텔리전스와 호환될까?

당신의 아이폰은 애플 인텔리전스와 호환될까?

한 학생이 2,000달러와 AI를 이용해 4주 만에 집에서 핵융합로를 만들었다

한 학생이 2,000달러와 AI를 이용해 4주 만에 집에서 핵융합로를 만들었다