JAMA Network Open에 발표된 연구에서 미네소타 대학교 의과대학, 스탠포드 대학교, 베스 이스라엘 디컨네스 메디컬 센터, 버지니아 대학교의 연구팀이 의사들이 GPT-4라는 인공지능(AI) 대형 언어 모델 시스템을 사용하여 환자를 진단하는 데 얼마나 잘 활용했는지를 연구함.
이 연구는 미국에서 면허를 가진 50명의 가정의학, 내과 및 응급의학 의사들과 함께 진행됨. 연구팀은 GPT-4를 진단 보조 도구로 사용할 때 의사들의 임상적 추론이 기존 자원에 비해 크게 향상되지 않았음을 발견함. 다른 주요 발견 사항은 다음과 같음:
GPT-4 단독으로 진단 성능에서 유의미하게 더 나은 점수를 보여주었으며, 기존의 진단 온라인 자원을 사용하는 임상의사들보다 더 나은 성과를 보임.
GPT-4를 사용하는 임상의사들과 기존 진단 자원을 사용하는 임상의사들을 비교했을 때, GPT-4의 추가가 진단 성능을 유의미하게 향상시키지 않았음.
미네소타 대학교 의과대학의 앤드류 올슨 박사는 "AI 분야는 빠르게 확장되고 있으며, 의학 내외에서 우리의 삶에 영향을 미치고 있음. 이러한 도구를 연구하고 우리가 제공하는 치료와 그 치료를 제공하는 경험을 개선하기 위해 어떻게 최선을 다할 수 있는지 이해하는 것이 중요하다"고 말함.
이 연구는 임상 실습에서 의사와 AI의 협력 개선 기회가 있음을 시사함.
이 결과는 임상 실습에 AI를 통합하는 복잡성을 강조함. GPT-4 단독으로는 유망한 결과를 보였지만, 임상의사와 함께 진단 보조 도구로서 GPT-4를 통합하는 것은 기존 진단 자원의 사용을 유의미하게 초과하지 않았음. 이는 의료 분야에서 AI의 미묘한 잠재력을 시사하며, AI가 임상 실습을 어떻게 지원할 수 있는지에 대한 추가 탐색의 중요성을 강조함. 또한, 이러한 도구를 사용하는 방법에 대해 임상의사들이 어떻게 교육받아야 하는지 이해하기 위해 더 많은 연구가 필요함.
네 개의 협력 기관은 의료 분야에서 GenAI 출력을 추가로 평가하기 위해 ARiSE라는 양해각서 AI 평가 네트워크를 출범함.
이 연구는 고든과 베티 무어 재단의 지원을 받음.