구글의 가장 진보된 이미지 생성기가 도착했음. 몇 달 전 구글 I/O 행사에서 이 모델을 예고한 후, 이제 Imagen 3 모델이 구글의 Gemini AI 플랫폼을 통해 제공됨. 무료 버전과 구독 기반의 Gemini Advanced 서비스, 그리고 구글의 비즈니스 제품 내에서도 사용 가능함. 구글은 Imagen 3가 AI 이미지 생성기들 사이에서 경쟁할 수 있도록 자사의 접근 방식을 통해 단어를 이미지로 변환하는 데 집중하고 있음.
Imagen 3는 이전 모델들과 마찬가지로 다양한 스타일의 이미지를 생성할 수 있음. 포토리얼리스틱 풍경과 만화 같은 클레이메이션 스타일을 포함함. 새로운 버전은 특히 사람의 이미지를 만드는 데 있어 Imagen 2보다 많은 면에서 개선됨. 회사는 올해 초에 발생한 역사적 오류를 반복하지 않겠다고 강하게 암시했음. 그럼에도 불구하고 '포토리얼리스틱하고 식별 가능한 개인'은 여전히 금지됨.
Imagen 3는 지난달 코드에서 발견된 실시간 편집 옵션도 포함됨. 사용자는 생성된 이미지에 대한 의견을 Gemini에 전달하고 AI에게 원하는 방식으로 변경하도록 지시할 수 있음. 회사는 사용자가 조정하고 싶은 이미지의 부분을 원으로 표시할 수 있는 기능에 대해서는 언급하지 않았지만, 이는 나중에 추가될 가능성이 있음. Imagen 3는 영어로 시작해 여러 언어로 통합될 예정임. 구글은 사람들이 기본 옵션으로 Gemini를 사용하길 원하고 있음.
AI 이미지 전쟁
Imagen 3는 또한 구글이 Gemini로 생성한 AI 이미지에 워터마크를 추가하는 SynthID 도구를 통해 시각적 마킹을 계속하고 있음. SynthID는 이미지에 보이지 않는 워터마크를 삽입하여, 이를 실제 사진이나 자신이 그린 것처럼 속이려는 시도를 빠르게 폭로할 수 있도록 함. 구글은 이를 잘못된 정보에 맞서 싸우고 AI 이미지의 세계를 더 투명하게 만들기 위한 방법으로 설명함. SynthID는 사람의 이미지, 폭력적인 이미지 및 기타 문제의 장면을 생성하는 것에 대한 안전 장치와 함께 Imagen 3에 사용되는 또 다른 안전 조치임.
Imagen 3는 AI 이미지 생성의 빠른 발전과 다양한 콘텐츠 생성 플랫폼에의 통합을 명확히 보여줌. 이는 구글이 대부분의 경쟁자들보다 우위를 점할 수 있는 한 분야임. Ideogram, Midjourney 및 기타 AI 이미지 생성기들은 독립적인 도구인 반면, OpenAI는 DALL-E를 ChatGPT의 주요 기능으로 사용하고, X는 최근 Grok AI 챗봇에 Flux를 통합함. Imagen 3와 Gemini의 결합은 구글에 확실한 이점을 제공하지만, 어떤 AI 이미지 생성기가 경쟁에서 우위를 점할지는 알 수 없음. 사진(리얼리스틱) 결승선이 될 것임.