새로운 딥러닝 모델인 LucaProt가 전 세계 생태계에서 251,000개 이상의 새로운 RNA 바이러스 종을 발견했으며, 남극 퇴적물과 극한 수중 환경과 같은 장소에서 전례 없는 바이러스 다양성을 드러냈음.
연구: 인공지능을 사용하여 숨겨진 RNA 바이러스계를 문서화하다
최근 Cell 저널에 발표된 연구에서 연구자들은 다양한 생태계의 메타 전사체에서 고도로 이질적인 리보핵산(RNA) 의존 RNA 중합효소(RdRP) 서열을 탐지하기 위해 'LucaProt'라는 변환기 기반 AI 모델을 개발했음. 그들은 180개의 RNA 바이러스 슈퍼그룹과 161,979개의 추정 RNA 바이러스 종을 확인했으며, RNA 바이러스가 광범위하게 퍼져 있고 극한 환경에서도 존재함을 보여줬음.
배경
RNA 바이러스는 광범위하게 퍼져 있으며 다양한 종에 감염되지만, 그들이 전 세계 생태계에서 차지하는 역할은 최근 대규모 바이러스 발견 노력 덕분에야 비로소 인식되기 시작했음. 이러한 연구들은 주로 RdRP 서열을 사용하여 수천 개의 새로운 바이러스 종을 식별함으로써 알려진 바이러스계를 확장했음. 그러나 현재의 도구들은 고도로 이질적인 RNA 바이러스를 놓치는 경우가 많아 개선된 식별 전략이 필요함.
딥러닝, 특히 합성곱 신경망(CNN), 순환 신경망(RNN), 변환기와 같은 알고리즘은 바이러스 식별을 위한 보다 정확하고 유연한 접근 방식을 제공함으로써 생명 과학의 많은 분야에서 혁신을 가져왔음. CNN과 RNN은 효과적이지만 긴 또는 복잡한 서열을 처리하는 데 한계가 있음. 짧은 관계와 긴 관계를 모두 포착하는 데 뛰어난 변환기 아키텍처는 고도로 이질적인 RNA 바이러스를 발견하는 데 유망한 대안이 됨.
따라서 연구자들은 'LucaProt'라는 변환기 기반 인공지능(AI) 도구를 개발했으며, 이는 Diamond, HMMscan, HH-suite, PalmScan과 같은 여러 다른 바이러스 발견 도구와 엄격하게 벤치마킹되었음. LucaProt는 98.22%의 가장 높은 재현율을 달성했으며, 이러한 방법들보다 재현율과 긴 서열 처리 측면에서 우수했음. 또한, LucaProt는 메타 전사체에서 고도로 이질적인 RNA 바이러스를 탐지하기 위해 이러한 도구들보다 낮은 거짓 긍정률을 유지했음.
연구에 대해
총 10,487개의 메타 전사체가 분석되었으며, 51테라바이트의 시퀀싱 데이터가 포함되었음. 이 중 10,437개는 생명공학정보센터의 시퀀스 읽기 아카이브에서 얻은 것으로, 수생, 토양, 숙주 관련 및 극한 서식지를 포함한 다양한 환경을 다루었음.
또한, 남극과 중국에서 50개의 데이터 세트가 생성되었으며, 해양, 담수, 토양 및 퇴적물 샘플을 포함했음. 시퀀싱 및 DNA/RNA 추출이 수행되었고, 시퀀스 읽기는 컨티그로 조립되었으며, 잠재적인 단백질은 ORFfinder를 사용하여 예측되었음.
잠재적인 바이러스 RdRP를 식별하기 위해 두 가지 전략이 사용되었음: LucaProt와 ClstrSearch(서열 유사성에 따라 단백질을 클러스터링하는 전통적인 접근법). LucaProt 모델은 235,413개의 샘플에서 훈련되었으며, 5,979개의 양성 및 229,434개의 음성 서열을 포함하여 포괄적이고 잘 검증된 데이터 세트를 보장했음.
결과와 논의
LucaProt는 높은 정확도(0.014% 거짓 긍정)와 특이성(1.72% 거짓 부정)을 보였음. 두 가지 방법을 사용하여 총 513,134개의 RNA 바이러스 컨티그가 식별되었으며, 이는 161,979개의 잠재적인 바이러스 종(90% 이상의 RdRP 유사성)과 180개의 RNA 바이러스 슈퍼그룹을 나타내며, 이는 국제 바이러스 분류 위원회에 의해 기존의 바이러스 분류와 비교 가능함.
특히, LucaProt는 70,458개의 추정 고유 바이러스를 식별했으며, 이 중 60개의 이전에 식별되지 않은 슈퍼그룹을 포함했으며, 모든 테스트된 방법 중에서 가장 높은 재현율을 기록했음. 이 중 99.9%의 바이러스 컨티그와 87.2%의 슈퍼그룹이 두 방법 모두에 의해 식별되었으며, LucaProt는 추가로 444개의 컨티그와 23개의 슈퍼그룹을 독점적으로 식별했음.
LucaProt는 도구들 중에서 가장 높은 재현율인 98.22%를 달성했으며, 다른 도구들은 LucaProt에 독점적인 새로운 바이러스의 42% 미만을 식별했음. 특히, LucaProt는 다른 연구에서 98% 이상의 RdRP를 회수했음. 검증을 통해 180개의 새로운 바이러스 슈퍼그룹이 RdRP 모티프와 서열 유사성을 기반으로 RNA 바이러스임을 확인했음.
AlphaFold2를 사용한 추가 분석을 통해 새롭게 식별된 바이러스 RdRP와 기존 바이러스 중합효소 간의 구조적 유사성이 밝혀져, 새로운 RNA 바이러스의 식별에 대한 신뢰성을 높였음.
이 연구는 또한 지금까지 발견된 가장 복잡한 RNA 바이러스 게놈 중 일부를 밝혀냈으며, 그 중 하나는 47.3킬로베이스 길이로, 지금까지 발견된 RNA 바이러스 중 가장 긴 것 중 하나임. 대부분의 RNA 바이러스 게놈은 약 2,131 뉴클레오타이드였음. 새로운 게놈에서 추가 단백질이 식별되어 RNA 바이러스라는 분류를 강화했음.
RNA 바이러스계는 55.9배 증가하여 종의 수가 크게 확장되었으며, 새롭게 발견된 슈퍼그룹에서 높은 계통 발생 다양성이 발견되어 더 많은 이질적인 RNA 바이러스의 가능성을 나타냄.
32개의 생태계 하위 유형과 1,612개의 위치에서 광범위한 바이러스 존재가 드러났으며, LucaProt에 의해 식별된 그룹의 33.3%가 이전에 보고되지 않았음. 생태계 내 종 다양성을 측정하는 알파 다양성은 낙엽 더미와 같은 환경에서 가장 높았으며, 바이러스의 풍부함은 남극 퇴적물과 해양 환경에서 정점에 달했음.
많은 새로운 바이러스 슈퍼그룹은 주로 수생 또는 퇴적물 기반이었으며, 일부는 특정 숙주 생태계와 관련이 있었음. 그러나 데이터 생성의 체계적 편향이 생태계 간 비교에 영향을 미칠 수 있음. 연구의 한계에는 고도로 이질적인 바이러스 분류의 어려움, 일부 바이러스 그룹에 대한 일치하는 DNA 데이터 부족, RdRP 세그먼트에 초점을 맞춘 부분적인 바이러스 게놈 식별이 포함됨.
결론
이 연구는 딥러닝과 대규모 메타 전사체 분석을 사용하여 251,000개 이상의 새로운 바이러스 종과 180개의 새로운 슈퍼그룹을 식별함으로써 RNA 바이러스계에 대한 우리의 이해를 향상시킴. 이러한 발견은 환경 샘플에서 바이러스의 방대한 유전적 다양성을 강조하며, 바이러스 병원체 및 생태계 역학과 관련된 생태학 및 공공 건강 연구의 지속적인 중요성을 강조함.