본문 바로가기
ai

Gemini 2.5 Pro TTS 써봤는데, 목소리 품질이 이제 쓸 만한 수준이다

by bamsik 2026. 3. 27.
반응형

결론부터 말하면, Gemini 2.5 Pro TTS는 이제 진지하게 쓸 수 있는 수준이 됐다.

작년까지만 해도 AI 음성 합성은 뭔가 어색했다. 억양이 기계적이고, 감정 표현이 없거나 과장되거나 둘 중 하나였다. 근데 이번에 Google이 조용히 업데이트한 Gemini 2.5 Pro TTS를 직접 써봤는데 — 좀 달라졌다.

뭐가 달라졌나

Google AI의 변경 로그를 보면 "enhanced expressivity, precision pacing, and seamless dialogue"라고 나와 있다. 말이 좀 거창한데, 실제로 체감한 건 크게 두 가지다.

첫째, 자연스러운 문장 끊김. 이전 TTS들은 쉼표에서 무조건 똑같은 간격으로 쉬었는데, 이제 문맥에 따라 다르게 처리한다. 질문형 문장이면 끝 음이 올라가고, 부연 설명이면 살짝 낮아지는 느낌. 굉장히 사소한데 듣다 보면 차이가 느껴진다.

둘째, 빠른 응답 속도. Gemini 2.5 Flash TTS는 특히 지연 시간을 줄이는 데 집중했다고 한다. 실시간 대화형 앱이나 음성 어시스턴트 붙이는 용도에 쓰면 체감 차이가 꽤 있다.

API로 직접 써보면 어떨까

Gemini API의 TTS 기능은 현재 Preview 상태로 제공된다. Node.js나 Python으로 호출하면 되고, 모델 이름은 gemini-2.5-pro-tts-preview 또는 gemini-2.5-flash-tts-preview. 품질 우선이면 Pro, 속도 우선이면 Flash를 선택하면 된다.

// Python 예시 (간략)
response = client.models.generate_content(
  model="gemini-2.5-pro-tts-preview",
  contents={"parts": [{"text": "안녕하세요, 오늘 날씨가 좋네요."}]},
  config={"response_modalities": ["AUDIO"]}
)

호출 자체는 간단하다. 기존 Gemini API 사용해봤으면 금방 붙일 수 있다.

솔직히 아쉬운 점도 있다

한국어 품질이 아직 영어만큼은 아니다. 영어는 꽤 자연스럽게 들리는데, 한국어는 여전히 "TTS스럽다"는 느낌이 좀 남아있다. 특히 긴 문장에서 억양 처리가 좀 어색해지는 경우가 있었다. 짧은 안내 멘트 수준에서는 괜찮은데, 긴 문단을 읽어주는 용도라면 아직 조심해서 써야 한다.

가격도 일반 텍스트 생성보다 훨씬 비싸다. 오디오 출력이니 당연하긴 한데, 운영 서비스에 붙이기 전에 비용 계산을 꼭 해봐야 한다.

어디에 쓰면 좋을까

개인적으로 생각하는 유즈케이스는 세 가지다. 하나는 사내 알림봇 — Slack이나 텔레그램 봇에 음성 메시지 기능 추가하는 용도. 다른 하나는 프로토타입 데모 — 클라이언트한테 보여줄 때 텍스트만 있는 것보다 음성까지 있으면 인상이 다르다. 세 번째는 접근성 기능 — 읽기 불편한 사용자를 위한 텍스트 읽어주기 기능에 붙이면 꽤 괜찮을 것 같다.

아직 완성된 제품이라기보다는 "이제 쓸 수 있겠다"는 수준이다. 하지만 그 정도면 충분히 써볼 이유가 있다.


📎 참고 자료

반응형