이 이야기를 들어보세요
OpenAI는 최신 Whisper 모델인 Whisper V3 Turbo를 출시했으며, 이는 전사 기능을 크게 향상시킴.
이번에 출시된 모델은 이전 모델인 large-v3보다 전사 속도가 8배 빨라졌으며, 비슷한 수준의 정확도를 유지함.
Whisper V3 Turbo는 더 빠를 뿐만 아니라 효율성도 높아져 이전 버전의 절반 정도 크기임. 이러한 최적화는 다양한 플랫폼에서의 배포를 용이하게 하여 고속 전사를 더 넓은 대중이 접근할 수 있도록 함. 공식적인 벤치마크는 아직 발표되지 않았지만, 초기 지표는 성능 저하가 최소화되었음을 시사함.
이 발표는 OpenAI의 공식 GitHub 저장소를 통해 이루어졌으며, 회사는 AI 도구의 범위를 계속 확장하고 있음. Whisper 모델은 다양한 언어와 억양을 처리하는 다재다능함으로 잘 알려져 있으며, 자동 고객 서비스부터 콘텐츠 생성에 이르기까지 다양한 애플리케이션에서 널리 사용됨.
OpenAI가 개발한 Whisper는 99개 이상의 언어로 음성을 텍스트로 변환하는 인상적인 능력을 가지고 있어 현재 가장 다재다능한 ASR 시스템 중 하나임. 다양한 억양, 배경 소음 및 기술 언어를 처리하는 강력함이 다른 음성 인식 도구와 차별화됨.
Whisper는 기본적으로 인코더-디코더 Transformer 아키텍처를 사용하며, 680,000시간의 다국어 및 다중 작업 감독 데이터로 훈련됨. 이러한 방대한 훈련 덕분에 Whisper는 영어 음성 인식에서 거의 인간 수준의 정확도를 달성하고, 다양한 데이터셋에서 제로샷 성능에서 많은 전문 모델을 초월함.
시스템은 30초 청크로 오디오를 처리하여 log-Mel 스펙트로그램으로 변환하고, 언어 식별, 구문 수준 타임스탬프 및 번역과 같은 작업을 수행하기 위해 특별한 토큰을 사용함.
Whisper의 주요 강점 중 하나는 오픈 소스 가능성으로, 모델과 추론 코드를 전 세계의 개발자와 연구자들이 접근할 수 있도록 제공함. 이러한 개방성은 혁신의 커뮤니티를 조성하여 기술의 사용자 정의 및 개선을 가능하게 함. Whisper는 OpenAI의 API를 통해서도 제공되어 개발자들이 애플리케이션과 서비스에 쉽게 통합할 수 있도록 함.