연구자들이 AI와 구글, 트위터의 온라인 데이터를 활용해 계절성 알레르기 패턴을 추적하고 예측함으로써 미국 전역의 알레르기 발생 시기와 지역적 변화를 새롭게 조명함.
25% 이상의 미국 성인이 계절성 알레르기로 고통받고 있지만, 그 발생 패턴은 명확하지 않음. 최근 PNAS Nexus에 발표된 연구에서 이를 탐구함.
알레르기는 가려운 피부, 콧물, 눈물, 천식 등의 증상을 유발하며, 미국에서 연간 450억에서 400억 달러의 의료비, 생산성 손실, 삶의 질 저하를 초래함. 대부분의 경우 병원 방문이 필요하지 않지만, 실제 유병률을 파악하기는 어려움.
현재 계절성 알레르기를 평가하는 방법은 자가 보고서나 알레르기 유병률과 공기 중 알레르겐 농도를 연결하는 가정에 의존함. 그러나 공기 중 알레르겐 데이터는 범위가 제한적이며, 종종 꽃가루 수준에만 초점을 맞춤.
트위터, 구글, 인스타그램, 옐프, 페이스북과 같은 인터넷 기반 감시 도구는 질병 추세를 추적하는 데 일반적임. 그러나 이전의 시도(예: 구글 독감 추세)는 독감 입원 예측에 실패함. 그럼에도 불구하고 이러한 도구는 잠재력을 지니고 있으며 계속해서 개선되고 있음.
이 연구는 미국 전역의 계절성 알레르기를 추적하기 위한 검증된 인터넷 기반 방법을 소개함. 연구자들은 인공지능(AI)과 기계 학습(ML)을 사용해 알레르기 관련 구글 검색과 트위터 게시물을 분석함. 알레르기 증상이 관련 온라인 활동을 유도할 것이라고 가정함. 이들은 이러한 패턴이 인구가 많은 캘리포니아 카운티의 알레르기 관련 응급실(ED) 방문과 유사할 것이라고 가설을 세움.
결과: 인터넷 데이터가 공기 중 알레르겐 노출의 대리 역할을 할 수 있음이 확인됨. 알레르기 관련 검색과 트위터 게시물은 ED 방문 데이터와 강하게 연결되어 있으며, 이는 외부 요인(아마도 곰팡이와 꽃가루 같은 공기 중 알레르겐)이 이 관계를 유도하고 있음을 시사함.
알레르기 데이터의 단기 상관관계가 모든 세 가지 데이터 소스에서 관찰되었으며, 이는 ED 방문, 검색 및 게시물이 상호 연결되어 있다는 아이디어를 뒷받침함. 그러나 일부 인구 편향이 예측 신뢰성을 제한할 수 있음.
국가 수준 모델링
캘리포니아의 데이터를 사용하여 연구자들은 144개의 인구 밀집 미국 카운티에서 알레르기 관련 온라인 활동을 매일 8년 동안 추적함. 계절적 추세는 지역에 따라 달라졌으며, 대부분의 지역은 봄(3월-5월)에 정점에 도달하고 가을(9월-10월)에 두 번째 정점을 가짐.
텍사스와 플로리다와 같은 지역에서는 겨울과 여름에도 추가적인 알레르기 시즌이 관찰됨.
계절성 알레르기 발생 시기는 카운티마다 다르며, 예를 들어 북부 캘리포니아의 봄 정점은 베이 지역보다 더 일찍 발생함. 일반적으로 알레르기 정점은 남동부에서 시작해 북쪽으로 이동하며, 북동부와 상부 중서부에 마지막으로 도달함.
미래 방향
연구자들은 토지 이용 및 기후 데이터를 인터넷 기반 알레르기 데이터와 통합하여 특정 알레르겐 추세를 더 잘 이해할 것을 제안함.
실시간 공기 중 알레르겐 추적과 소셜 미디어 활동을 결합하면 알레르기 예측 및 대응을 향상시킬 수 있음.
결론
이 연구는 인터넷 기반 데이터가 계절성 알레르기 유병률 예측에 전통적인 감시를 보완할 수 있음을 보여줌. 알레르기 발생 시기와 위치에 대한 세밀한 관점을 제공함으로써, 이 접근법은 특히 글로벌 생태계 변화가 알레르기 패턴을 변화시키는 상황에서 알레르기 예측을 개선할 수 있음.