영국 의사 5명 중 1명이 OpenAI의 ChatGPT나 구글의 제미니와 같은 생성적 인공지능(GenAI) 도구를 임상 실습에 도움을 주기 위해 사용하고 있음. 이는 약 1,000명의 일반의(GP)를 대상으로 한 최근 조사에 따른 것임.
의사들은 GenAI를 사용하여 진료 후 문서 작성을 하고, 임상 결정을 내리며, 환자에게 이해하기 쉬운 퇴원 요약 및 치료 계획과 같은 정보를 제공하고 있음.
인공지능에 대한 과대광고와 보건 시스템이 직면한 도전 과제를 고려할 때, 의사와 정책 입안자들이 AI를 현대화하고 보건 서비스를 혁신하는 열쇠로 보고 있는 것은 놀라운 일이 아님.
하지만 GenAI는 최근의 혁신으로, 환자 안전에 대한 우리의 사고 방식을 근본적으로 도전하고 있음. 일상적인 임상 실습에서 안전하게 사용되기 위해서는 GenAI에 대해 알아야 할 것이 많음.
GenAI의 문제점
전통적으로 AI 응용 프로그램은 매우 특정한 작업을 수행하도록 개발됨. 예를 들어, 딥러닝 신경망은 이미징 및 진단에서 분류를 위해 사용됨. 이러한 시스템은 유방암 검진을 돕기 위해 유방촬영술을 분석하는 데 효과적임.
하지만 GenAI는 좁게 정의된 작업을 수행하도록 훈련되지 않음. 이러한 기술은 일반적인 기능을 가진 이른바 기초 모델에 기반하고 있음. 이는 텍스트, 픽셀, 오디오 또는 이들의 조합을 생성할 수 있음을 의미함.
이러한 기능은 사용자 쿼리에 답변하거나, 코드를 생성하거나, 이미지를 만드는 등 다양한 응용 프로그램에 맞게 조정됨. 이러한 유형의 AI와 상호작용할 수 있는 가능성은 사용자의 상상력에 의해 제한될 뿐임.
중요한 것은, 이 기술이 특정 맥락에서 사용되도록 개발되지 않았기 때문에 의사들이 이를 안전하게 사용할 수 있는 방법을 실제로 알지 못함. 이것이 GenAI가 현재 의료 분야에서 광범위하게 사용되기에 적합하지 않은 이유 중 하나임.
GenAI를 의료에 사용하는 또 다른 문제는 '환각' 현상으로 잘 알려져 있음. 환각은 제공된 입력에 기반하여 비논리적이거나 사실이 아닌 출력을 생성하는 현상임.
환각은 GenAI가 텍스트 요약을 생성하는 맥락에서 연구됨. 한 연구에서는 다양한 GenAI 도구가 텍스트에서 언급된 내용과 잘못된 연결을 생성하거나, 요약에 텍스트에서 언급되지 않은 정보를 포함하는 출력을 생성함을 발견함.
환각은 GenAI가 가능성의 원칙에 따라 작동하기 때문에 발생함. 즉, 주어진 맥락에서 어떤 단어가 다음에 올지를 예측하는 방식으로 작동함. 이는 GenAI가 생성한 출력이 그럴듯하지만 반드시 진실하지는 않음을 의미함.
이러한 그럴듯함은 GenAI를 일상적인 의료 실습에서 안전하게 사용할 수 없는 또 다른 이유임.
예를 들어, GenAI 도구가 환자의 상담을 듣고 전자 요약 노트를 생성한다고 상상해보자. 한편으로는, 이는 GP나 간호사가 환자와 더 잘 소통할 수 있도록 해줌. 하지만 다른 한편으로는, GenAI가 그럴듯하다고 생각하는 내용을 기반으로 노트를 생성할 수 있음.
예를 들어, GenAI 요약이 환자의 증상의 빈도나 심각성을 변경하거나, 환자가 불평하지 않은 증상을 추가하거나, 환자나 의사가 언급하지 않은 정보를 포함할 수 있음.
의사와 간호사는 AI가 생성한 노트를 면밀히 교정해야 하며, 사실 정보와 그럴듯하지만 만들어진 정보를 구별하기 위해 훌륭한 기억력을 가져야 함.
이는 GP가 환자를 잘 알고 있어 부정확성을 식별할 수 있는 전통적인 가정의사 환경에서는 괜찮을 수 있음. 하지만 환자가 종종 다른 의료 종사자에게 진료를 받는 분산된 보건 시스템에서는, 환자 노트의 부정확성이 건강에 중대한 위험을 초래할 수 있음. 여기에는 지연, 부적절한 치료 및 오진이 포함됨.
환각과 관련된 위험은 상당함. 하지만 연구자와 개발자들이 현재 환각 가능성을 줄이기 위해 노력하고 있다는 점은 주목할 만함.
환자 안전
GenAI를 의료에 사용하는 것이 너무 이른 또 다른 이유는 환자 안전이 AI와의 상호작용에 따라 특정 맥락과 설정에서 얼마나 잘 작동하는지를 결정하기 때문임. 이는 기술이 사람들과 어떻게 작동하는지, 규칙과 압력, 더 큰 보건 시스템 내의 문화와 우선순위와 어떻게 맞는지를 살펴보는 것임. 이러한 시스템 관점은 GenAI 사용이 안전한지를 결정할 수 있음.
하지만 GenAI는 특정 용도로 설계되지 않았기 때문에 적응 가능하며, 우리가 완전히 예측할 수 없는 방식으로 사용될 수 있음. 게다가 개발자들은 정기적으로 기술을 업데이트하고, 새로운 일반 기능을 추가하여 GenAI 응용 프로그램의 행동을 변경함.
또한, 기술이 안전하고 의도한 대로 작동하는 것처럼 보이더라도, 사용 맥락에 따라 해가 발생할 수 있음.
예를 들어, 분류를 위한 GenAI 대화형 에이전트를 도입하면 다양한 환자들이 의료 시스템에 참여할 의향에 영향을 미칠 수 있음. 디지털 문해력이 낮은 환자, 영어가 모국어가 아닌 사람들, 비언어적 환자들은 GenAI 사용이 어려울 수 있음. 따라서 기술이 원칙적으로 '작동'하더라도, 모든 사용자에게 동등하게 작동하지 않는 경우 해를 초래할 수 있음.
여기서 중요한 점은 GenAI와 관련된 이러한 위험이 전통적인 안전 분석 접근 방식을 통해 사전에 예측하기가 훨씬 더 어렵다는 것임. 이러한 접근 방식은 기술의 실패가 특정 맥락에서 어떻게 해를 초래할 수 있는지를 이해하는 데 중점을 둠. 의료 분야는 GenAI 및 기타 AI 도구의 채택으로 엄청난 혜택을 볼 수 있음.
하지만 이러한 기술이 의료 분야에서 더 널리 사용되기 위해서는 안전 보장 및 규제가 이러한 기술이 사용되는 방식과 장소의 발전에 더 민감해져야 함.
또한 GenAI 도구의 개발자와 규제 기관이 이러한 기술을 사용하는 커뮤니티와 협력하여 임상 실습에서 정기적으로 안전하게 사용할 수 있는 도구를 개발하는 것이 필요함.
마크 수잔, 요크 대학교 안전 과학 의장