육지의 물고기가 지느러미를 흔들고 있지만, 그 물고기가 물속에 있을 때 결과는 현저히 다름. 이는 저명한 컴퓨터 과학자 앨런 케이에게 귀속된 비유로, 조사 중인 질문을 밝히는 데 있어 맥락의 힘을 설명하는 데 사용됨.
인공지능(AI) 분야에서 최초로, PINNACLE이라는 도구는 단백질이 작용하고 상호작용하는 조직과 세포에 의해 결정된 적절한 맥락에서 단백질의 행동을 이해하는 데 있어 케이의 통찰력을 구현함. 특히, PINNACLE은 단백질이 기능하고 오작동하는 방식을 분석하는 현재 AI 모델의 일부 한계를 극복함. 현재 모델은 세포와 조직 유형을 하나씩 분석하는 경향이 있음.
하버드 의대 연구자들이 주도한 이 새로운 AI 모델의 개발은 Nature Methods에 설명됨.
자연 세계는 상호 연결되어 있으며, PINNACLE은 이러한 연결을 식별하는 데 도움을 줌. 이를 통해 단백질에 대한 더 자세한 지식과 더 안전하고 효과적인 약물을 얻을 수 있음. 현재의 맥락 없는 모델의 한계를 극복하고 단백질 상호작용 분석을 향상시키기 위한 미래 방향을 제시함.
연구자들은 이 발전이 건강과 질병에서 단백질의 역할에 대한 현재 이해를 촉진하고, 보다 정밀하고 맞춤화된 치료법을 설계하기 위한 새로운 약물 표적을 밝힐 수 있다고 언급함.
PINNACLE은 전 세계의 과학자들에게 무료로 제공됨.
주요 진전
단백질 간의 상호작용과 그들의 인접 생물학적 이웃의 영향을 풀어내는 것은 까다로움. 현재의 분석 도구는 개별 단백질의 구조적 특성과 형태에 대한 정보를 제공하는 중요한 역할을 하지만, 전체 단백질 환경의 맥락적 뉘앙스를 다루도록 설계되지 않음. 대신, 이들은 맥락이 없는 단백질 표현을 생성하여 세포 유형 및 조직 유형의 맥락 정보를 결여함.
하지만 단백질은 자신이 위치한 세포 및 조직 맥락에 따라 다른 역할을 하며, 동일한 조직이나 세포가 건강한지 질병인지에 따라서도 다름. 단일 단백질 표현 모델은 다양한 맥락에서 변하는 단백질 기능을 식별할 수 없음.
단백질 행동에 있어서는 위치가 중요함.
20가지의 다양한 아미노산으로 구성된 단백질은 세포와 조직의 기본 구성 요소이며, 산소를 운반하고, 호흡과 걷기를 위한 근육 수축, 소화 및 감염 퇴치 등 생명 유지 기능에 필수적임.
과학자들은 인체 내 단백질 수가 20,000개에서 수십만 개에 이를 것으로 추정함.
단백질은 서로 상호작용할 뿐만 아니라 DNA 및 RNA와 같은 다른 분자와도 상호작용함.
단백질 간의 복잡한 상호작용은 복잡한 단백질 상호작용 네트워크를 생성함. 다른 세포들 사이에 위치한 이러한 네트워크는 다른 단백질 및 단백질 네트워크와 복잡한 교류를 함.
PINNACLE의 장점은 단백질 행동이 세포 및 조직 유형에 따라 달라질 수 있다는 것을 인식하는 능력에서 비롯됨. 동일한 단백질이 건강한 폐 세포에서는 다른 기능을 가질 수 있으며, 건강한 신장 세포나 질병에 걸린 대장 세포에서는 또 다름.
PINNACLE은 이러한 세포와 조직이 동일한 단백질에 어떻게 다르게 영향을 미치는지를 밝힘. 특정 세포 유형에 따라 단백질 네트워크가 어떤 단백질이 특정 대화에 참여하고 어떤 단백질이 침묵하는지를 결정할 수 있음. 이는 PINNACLE이 단백질 간의 교류를 더 잘 해독하고 행동 유형을 파악하는 데 도움을 주며, 궁극적으로 질병을 유발하는 오작동 단백질에 대한 맞춤형 약물 표적을 예측할 수 있게 함.
연구자들은 PINNACLE이 단일 표현 모델을 대체하는 것이 아니라 보완한다고 언급함. 다양한 세포 맥락 내에서 단백질 상호작용을 분석할 수 있음.
따라서 PINNACLE은 연구자들이 단백질 기능을 더 잘 이해하고 예측할 수 있도록 하며, 중요한 세포 과정과 질병 메커니즘을 밝히는 데 도움을 줄 수 있음.
이 능력은 개별 약물의 표적이 될 수 있는 "약물화 가능한" 단백질을 정확히 찾아내고, 다양한 세포 유형에서 다양한 약물의 효과를 예측하는 데 도움을 줄 수 있음. 이러한 이유로 PINNACLE은 과학자들과 약물 개발자들이 잠재적 표적을 훨씬 더 효율적으로 찾아내는 데 유용한 도구가 될 수 있음.
약물 발견 과정의 최적화는 절실히 필요하다고 Zitnik은 언급함. 새로운 약물을 시장에 출시하는 데 10-15년이 걸리고, 비용은 최대 10억 달러에 이를 수 있으며, 발견에서 약물까지의 과정은 notoriously bumpy함. 실제로 약물 후보의 거의 90%가 의약품이 되지 않음.
PINNACLE 구축 및 훈련
연구자들은 포괄적인 다기관 아틀라스의 인간 세포 데이터를 사용하고, 단백질-단백질 상호작용, 세포 유형 간 상호작용 및 조직의 여러 네트워크를 결합하여 PINNACLE을 훈련시켜 156개 세포 유형과 62개 조직 및 장기를 포함하는 파노라마 그래픽 단백질 표현을 생성함.
현재까지 PINNACLE은 약 395,000개의 다차원 표현을 생성했으며, 현재 단일 단백질 모델 하에서는 약 22,000개의 표현이 가능함. 각 156개 세포 유형은 약 2,500개의 단백질의 맥락이 풍부한 단백질 상호작용 네트워크를 포함함.
현재의 세포 유형, 조직 및 장기의 수는 모델의 상한선이 아님. 현재까지 평가된 세포 유형은 살아있는 인간 기증자로부터 얻은 것이며, 인체의 대부분 세포 유형을 포함하지만 모든 세포 유형을 포함하지는 않음. 또한, 많은 세포 유형이 아직 식별되지 않았고, 다른 세포 유형은 드물거나 탐색하기 어려움, 예를 들어 뇌의 뉴런과 같은 경우.
Zitnik은 PINNACLE의 세포 레퍼토리를 다양화하기 위해 인체 전체에서 샘플링된 수천만 개의 세포를 포함하는 데이터 플랫폼을 활용할 계획임.