캐나다에서 가장 널리 사용되는 원주민 언어 중 하나가 이제 구글의 번역 서비스에서 제공됨. 이는 기술 대기업이 캐나다에서 사용되는 첫 번째 네이티브, 메티스 또는 이누이트 언어를 플랫폼에 포함한 것임.
이누크투트는 캐나다, 그린란드, 알래스카의 이누이트가 사용하는 다양한 방언을 포함하는 광범위한 용어로, 구글 번역에 추가됨. 구글 번역은 텍스트, 문서 및 웹사이트를 한 언어에서 다른 언어로 번역함.
이번 추가는 구글이 세계에서 가장 많이 사용되는 1,000개 언어를 지원하기 위해 단일 인공지능 언어 모델을 개발하는 이니셔티브의 일환임.
캐나다 통계청의 데이터에 따르면, 이누크투트 화자는 약 40,000명임. 화자의 수만으로는 구글 번역에 포함될 수 있는 언어를 결정할 수 없다고 이삭 캐스웰, 플랫폼의 수석 소프트웨어 엔지니어가 말함.
온라인 텍스트 데이터가 충분히 있어야 언어 모델을 만들 수 있음. 캐스웰은 다른 원주민 언어들은 "사용 가능한 기계 번역 모델을 만들기에는 데이터가 너무 적었다"고 설명함.
예를 들어, 캐나다에서 86,000명 이상이 사용하는 크리어를 추가하려고 했지만, 해당 언어로 된 웹사이트가 적어 데이터가 부족했음. "우리는 단순히 깨진 텍스트나 의미 없는 텍스트를 생성하는 제품을 출시하고 싶지 않다"고 캐스웰이 말함.
"이누크투트는 깨끗하고 잘 작성된 데이터가 많아 눈에 띈다. 커뮤니티가 점점 더 온라인에 존재하기 때문이라고 생각함." 구글 번역에 언어를 추가할 때, 기술 회사는 두 가지 주요 사항을 고려함: 커뮤니티의 필요와 기술적 가능성.
구글이 이누크투트를 인식할 수 있는 모델을 결정한 후, 언어 화자 및 조직과 상담을 시작함. 회사는 캐나다의 약 70,000명의 이누이트를 대표하는 국가 조직인 이누이트 타피리트 카나타미에 연락하여 모델 개발이 이누크투트 언어에 충실하도록 보장함. 이누크투트는 qaniujaaqpait(음절 문자)와 qaliujaaqpait(로마 알파벳)를 사용하는 두 가지 쓰기 시스템을 가짐.
이누이트 타피리트 카나타미는 이누크투트의 다양한 방언으로 글을 쓸 수 있는 공통 문자 데이터 세트를 개발하여 서로 다른 이누이트 지역 간의 서면 커뮤니케이션을 용이하게 함. "그들의 도움이 없었다면, 우리는 음절 문자로만 출시할 수 있었을 것이고, 이는 그들의 현재 작업을 저해했을 것"이라고 캐스웰이 말함.
이 조직은 이누크투트를 포함시키려는 구글의 작업을 환영하며, 이누이트 언어를 되살리고 보호하며 홍보할 필요성을 강조함. "이렇게 널리 사용되는 플랫폼에 이누크투트가 추가됨으로써 이누이트가 디지털 세계에서 더 완전하게 상호작용할 수 있게 된다"고 이누이트 타피리트 카나타미의 회장 나탄 오베드가 성명에서 말함.
이누크투트의 도입으로 구글은 기술 부문에서 종종 간과되는 사람들 그룹을 더 잘 대표하고자 함. "아마도 이로 인해 그들이 큰 기술 회사에 의해 조금 더 보이는 느낌을 받을 수 있기를 바란다. 일반적으로 원주민 커뮤니티는 기술에 의해 간과되는 경험이 많기 때문"이라고 캐스웰이 말함.
사용자는 구글 번역을 통해 이누크투트를 영어로, 또는 그 반대로 번역할 수 있는 기능을 가짐. 음성 번역 도구와 같은 다른 옵션은 나중에 제공될 수 있다고 캐스웰이 덧붙임.
AI가 원주민 언어를 홍보하는 데 사용되는 것은 한계가 없지 않지만, 캐스웰은 더 많은 언어가 개선된 기술로 잠금 해제됨에 따라 변화할 것이라고 예상함.
이 보고서는 캐나다 프레스에 의해 2024년 10월 17일 처음 발표됨.
브리타니 홉슨, 캐나다 프레스