결론부터 말하면, Gemini 2.5 Pro TTS는 이제 진지하게 쓸 수 있는 수준이 됐다.
작년까지만 해도 AI 음성 합성은 뭔가 어색했다. 억양이 기계적이고, 감정 표현이 없거나 과장되거나 둘 중 하나였다. 근데 이번에 Google이 조용히 업데이트한 Gemini 2.5 Pro TTS를 직접 써봤는데 — 좀 달라졌다.

뭐가 달라졌나
Google AI의 변경 로그를 보면 "enhanced expressivity, precision pacing, and seamless dialogue"라고 나와 있다. 말이 좀 거창한데, 실제로 체감한 건 크게 두 가지다.
첫째, 자연스러운 문장 끊김. 이전 TTS들은 쉼표에서 무조건 똑같은 간격으로 쉬었는데, 이제 문맥에 따라 다르게 처리한다. 질문형 문장이면 끝 음이 올라가고, 부연 설명이면 살짝 낮아지는 느낌. 굉장히 사소한데 듣다 보면 차이가 느껴진다.
둘째, 빠른 응답 속도. Gemini 2.5 Flash TTS는 특히 지연 시간을 줄이는 데 집중했다고 한다. 실시간 대화형 앱이나 음성 어시스턴트 붙이는 용도에 쓰면 체감 차이가 꽤 있다.

API로 직접 써보면 어떨까
Gemini API의 TTS 기능은 현재 Preview 상태로 제공된다. Node.js나 Python으로 호출하면 되고, 모델 이름은 gemini-2.5-pro-tts-preview 또는 gemini-2.5-flash-tts-preview. 품질 우선이면 Pro, 속도 우선이면 Flash를 선택하면 된다.
// Python 예시 (간략)
response = client.models.generate_content(
model="gemini-2.5-pro-tts-preview",
contents={"parts": [{"text": "안녕하세요, 오늘 날씨가 좋네요."}]},
config={"response_modalities": ["AUDIO"]}
)
호출 자체는 간단하다. 기존 Gemini API 사용해봤으면 금방 붙일 수 있다.

솔직히 아쉬운 점도 있다
한국어 품질이 아직 영어만큼은 아니다. 영어는 꽤 자연스럽게 들리는데, 한국어는 여전히 "TTS스럽다"는 느낌이 좀 남아있다. 특히 긴 문장에서 억양 처리가 좀 어색해지는 경우가 있었다. 짧은 안내 멘트 수준에서는 괜찮은데, 긴 문단을 읽어주는 용도라면 아직 조심해서 써야 한다.
가격도 일반 텍스트 생성보다 훨씬 비싸다. 오디오 출력이니 당연하긴 한데, 운영 서비스에 붙이기 전에 비용 계산을 꼭 해봐야 한다.

어디에 쓰면 좋을까
개인적으로 생각하는 유즈케이스는 세 가지다. 하나는 사내 알림봇 — Slack이나 텔레그램 봇에 음성 메시지 기능 추가하는 용도. 다른 하나는 프로토타입 데모 — 클라이언트한테 보여줄 때 텍스트만 있는 것보다 음성까지 있으면 인상이 다르다. 세 번째는 접근성 기능 — 읽기 불편한 사용자를 위한 텍스트 읽어주기 기능에 붙이면 꽤 괜찮을 것 같다.
아직 완성된 제품이라기보다는 "이제 쓸 수 있겠다"는 수준이다. 하지만 그 정도면 충분히 써볼 이유가 있다.
📎 참고 자료
'ai' 카테고리의 다른 글
| 2026 UI/UX 디자인 트렌드, AI 퍼스트 디자인이 기본이 됐다 (0) | 2026.03.27 |
|---|---|
| MCP vs A2A — 2026년 AI 에이전트 연결 표준, 뭘 배워야 하나 (0) | 2026.03.27 |
| GPT-5.4 vs Claude Sonnet 4.6 vs Gemini 3.1 Pro — 셋 중에 뭘 골라야 하나 (0) | 2026.03.27 |
| Sora vs 나머지 — 뭘 고를지 고민된다면 (0) | 2026.03.26 |
| AI 코딩 도구, 이제 너무 많아서 고르기가 더 힘들다 (0) | 2026.03.26 |