NewsGPT™

혁신적인 AI, DNA 패턴으로 노화와 질병 예측

📰 Revolutionary AI predicts aging and disease from DNA patterns by News-Medical.net

Published: 2024-11-12 03:12:00

Featured Image
  • CpGPT 모델은 DNA 메틸화 예측을 위한 혁신적인 변환기 기반 모델임.
  • 이 모델은 1,500개 이상의 연구에서 수집된 100,000개 이상의 샘플을 기반으로 하여 다양한 조직과 조건에서 높은 예측 정확성을 제공함.
  • CpGPT는 노화 및 질병 예측의 새로운 패러다임을 제시할 수 있는 잠재력을 지니고 있음.

DNA 서열과 후생유전학적 맥락을 통합하여 CpGPT는 노화 관련 결과 예측을 위한 새로운 기준을 설정하며, 다양한 데이터 세트에서 사망 및 질병 위험을 평가하는 데 전례 없는 정확성을 제공함.

최근 bioRxiv 서버에 게시된 사전 인쇄 연구에서 연구팀은 DNA 메틸화에 대한 변환기 기반 기초 모델인 사이토신-인산-구아닌 사전 훈련 변환기(CpGPT)를 소개함. 이 모델은 다양한 조직과 조건에서 분석 및 예측을 향상시키기 위해 설계됨.

배경

변환기 아키텍처의 출현 이후 인공지능은 빠르게 발전하였으며, 특히 복잡한 패턴을 포착하기 위해 자기 주의(self-attention)를 활용하는 기초 모델과 대형 언어 모델(LLM)을 통해 발전함. 변환기는 생물학과 의학에 상당한 영향을 미쳤으며, 단일 세포 전사체학을 발전시키고 단일 세포 GPT(scGPT) 및 Geneformer와 같은 모델을 통해 이전에 알려지지 않은 생물학을 밝혀냄. 노화 연구에서의 진전에도 불구하고 많은 후생유전학적 노화 시계는 여전히 CpG DNA 메틸화 데이터를 사용하는 단순 선형 모델에 의존하고 있으며, 종종 서열 맥락과 복잡한 상호작용을 간과함. AltumAge 및 DeepMAge와 같은 몇몇 예측기는 심층 신경망을 사용함. 노화의 복잡한 메커니즘을 더 잘 포착하기 위해 고급 모델 개발이 필요함.

연구에 대하여

CpGPT 모델을 개발하기 위해 연구자들은 'CpGCorpus'라는 포괄적인 DNA 메틸화 데이터 세트를 수집함. 이 데이터 세트는 1,502개 이상의 연구와 106,000개 이상의 인간 샘플에서 데이터를 집계하였으며, 다양한 Illumina 메틸화 배열 플랫폼을 포함하고 조직 유형, 발달 단계, 질병 조건 및 인구 통계적 배경의 풍부한 다양성을 나타냄. 원시 데이터는 단일 샘플 메틸화 분석 파이프라인(SeSAMe)을 사용하여 처리되었으며, 이미 처리된 데이터에 대해서는 정규화된 베타 값 행렬이 사용됨. 품질 관리 조치와 프로브 조화가 적용되어 데이터 세트 전반에 걸쳐 일관성을 보장함. 데이터는 중복 샘플이나 연구 없이 훈련, 검증 및 테스트 세트로 분할됨.

CpGPT 모델은 서열, 위치 및 후생유전학적 정보를 통합함. 입력 표현에는 사전 훈련된 DNA 언어 모델에서 얻은 '뉴클레오타이드 서열의 임베딩', 각 사이트의 메틸화 상태를 나타내는 메틸화 베타 값, CpG 사이트의 유전체 내 위치를 포착하기 위한 유전체 위치 인코딩이 포함됨. 절대 및 상대 위치 인코딩을 결합한 이중 위치 인코딩 전략이 사용되어 다중 규모 유전체 정보를 포착함. 베타 값 예측, 조건 예측 및 불확실성 추정을 위한 특수 디코더가 설계됨.

사전 훈련은 맞춤형 손실 함수를 사용한 다중 작업 학습 접근 방식을 통해 수행되었으며, 모델의 결측 데이터 재구성 능력과 의미 있는 샘플 표현 학습을 최적화함. 사망과 관련된 CpG 사이트는 클래스 내 상관 계수 및 z-점수 임계값에 따라 선택됨. 모델은 수정된 콕스 비례 위험 손실을 사용하여 훈련됨. 사망 및 질병에 대한 예측 성능은 여러 집단에서 콕스 회귀 모델, 수신자 조작 특성 분석 및 생존 분석을 사용하여 평가되었으며, 연령을 조정하고 적절한 통계 방법을 사용함.

연구 결과

연구자들은 1,500개 이상의 연구에서 100,000개 이상의 인간 DNA 메틸화 샘플을 포함하는 CpGPT를 개발함. 이 데이터는 다양한 Illumina 메틸화 배열 플랫폼 간의 일관성을 보장하기 위해 철저히 전처리되고 조화됨. CpGPT는 서열 맥락, 위치 정보 및 후생유전학적 상태의 세 가지 주요 유형의 맥락 정보를 통합함. 서열 맥락은 각 CpG 사이트 주변의 뉴클레오타이드 서열의 임베딩을 사용하여 인코딩되며, 이는 사전 훈련된 DNA 언어 모델에서 파생됨. 모델은 유전체 위치에 따라 서열 임베딩을 정리하고 염색체별로 그룹화하며, 위치 편향을 방지하기 위해 확률적 셔플링을 적용함. 각 CpG 사이트의 메틸화 상태는 후생유전학적 상태를 나타내는 임베딩으로 변환되며, 이러한 임베딩이 결합되어 모델의 입력을 형성함.

CpGPT의 핵심 아키텍처는 훈련 안정성과 정확성을 높이기 위해 수정된 변환기 아키텍처인 Transformer++ 모델을 기반으로 함. 이 모델은 메틸화 상태(베타 값)와 그 불확실성을 예측하기 위해 비지도 방식으로 훈련되며, 포괄적인 메틸화 프로필을 캡슐화하는 의미 있는 샘플 수준 임베딩을 생성할 수 있음. 훈련 과정은 다양한 성능 측면을 최적화하기 위해 여러 손실 함수를 사용하며, 결측 데이터를 효과적으로 처리하도록 설계됨.

차원 축소 기법을 사용한 평가 결과, CpGPT의 로커스 임베딩은 기능적 유전체 주석을 자연스럽게 반영하며, CpG 사이트는 섬 상태 및 크로마틴 상태와 같은 특징에 따라 클러스터링됨. 샘플 임베딩은 생물학적 변Variation을 효과적으로 캡처하며, 조직 유형 및 세포주에 따라 샘플을 클러스터링함. 이 모델은 제로샷 참조 매핑을 수행할 수 있는 능력을 보여주며, 이는 추가 훈련 없이 알려진 주석이 있는 참조 데이터 세트에서 새로운 대상 데이터 세트로 레이블을 전이할 수 있게 함.

CpGPT는 결측 메틸화 데이터를 보간하는 데 강력한 성능을 보여주며, 결측 프로브에 대한 베타 값을 정확하게 재구성하고 다양한 후생유전학적 시계의 성능을 향상시킴. 주의 메커니즘을 통해 CpGPT는 기능을 동적으로 가중치화하여 각 CpG 사이트에 중요도 점수를 할당함으로써 샘플별 해석을 가능하게 함. 이는 조직 특이적 후생유전학적 조절에 중요한 생물학적으로 관련된 유전자를 강조함.

사망 예측을 위해 미세 조정된 CpGPT는 여러 집단에서 예측 성능을 보여주며, 생물학적 노화 프로필에 따라 개인을 효과적으로 계층화함. 이는 신경퇴행성 질환, 심혈관 문제 및 신체 기능 측정과 같은 조건에 대한 위험과 유의미한 연관성을 보여줌.

결론

결론적으로 CpGPT는 서열 맥락, 위치 정보 및 후생유전학적 상태를 효과적으로 통합하여 CpG 사이트 및 샘플 수준에서 풍부한 임베딩을 학습함. 이 모델은 결측 메틸화 값 보간, 배열 변환, 제로샷 참조 매핑 및 나이 및 사망 예측과 같은 작업에서 뛰어난 성능을 발휘함. CpG 사이트 간의 복잡한 의존성을 포착함으로써 CpGPT는 전통적인 선형 모델의 한계를 극복하고 다양한 데이터 세트에서 노화 관련 결과 및 질병 위험에 대한 예측 능력을 향상시킴.

🤖 NewsGPT Opinion

이 연구는 DNA 메틸화 예측의 새로운 지평을 여는 것 같음. CpGPT라는 모델이 기존의 단순한 선형 모델을 넘어서서 복잡한 생물학적 패턴을 포착할 수 있다는 점이 인상적임. 특히, 다양한 조직과 조건에서의 예측 정확도가 높아진다는 것은 노화와 질병 연구에 큰 도움이 될 것임.

또한, 이 모델이 1,500개 이상의 연구에서 수집된 방대한 데이터를 기반으로 한다는 점도 주목할 만함. 데이터의 다양성이 높아질수록 예측의 신뢰성도 높아질 것임. 앞으로 이 기술이 실제 임상에서 어떻게 활용될지 기대됨.

하지만, 연구 결과가 아직 동료 검토를 거치지 않은 사전 인쇄 상태라는 점은 유의해야 함. 따라서 이 정보를 바탕으로 즉각적인 임상적 결정을 내리는 것은 위험할 수 있음. 연구자들이 이 모델을 더욱 발전시켜 실제 임상에서 활용할 수 있는 방법을 모색해야 할 것임.

결국, CpGPT는 노화와 질병 예측의 새로운 패러다임을 제시할 수 있는 잠재력을 지니고 있음. 앞으로의 연구가 이 모델을 어떻게 발전시킬지, 그리고 실제로 얼마나 많은 생명을 구할 수 있을지 기대됨. 과학의 발전이 우리 삶에 긍정적인 영향을 미치기를 바람.

마지막으로, 이 연구가 더 많은 관심을 받고, 후속 연구가 활발히 이루어지길 바람. 과학은 혼자서는 발전할 수 없으니, 많은 연구자들이 함께 힘을 모아야 할 것임.

📰 Next News

AI 기반 초음파 소프트웨어, 고정확도로 출산 결정 안내

AI 기반 초음파 소프트웨어, 고정확도로 출산 결정 안내

LTTS, Intelliswift 인수로 디지털 엔지니어링 강화

LTTS, Intelliswift 인수로 디지털 엔지니어링 강화