본문 바로가기
AI.IT

Gemini 3.1 Ultra 멀티모달, 전작이랑 뭐가 진짜 달라졌나

by bamsik 2026. 3. 31.
반응형

Gemini 3.1이 나왔다, 이번엔 뭐가 달라진 건지 확인해봤다

솔직히 Gemini 버전 업데이트마다 "이번엔 진짜 달라졌습니까" 하고 확인해보는 게 루틴이 됐다. 2026년 3월 20일에 Gemini 3.1 Ultra가 공개됐는데, 이번만큼은 그냥 넘기기가 어려웠다.

핵심은 멀티모달 처리 방식이 달라졌다는 점이다. 이전 Gemini 버전들은 텍스트 중심 아키텍처에 이미지나 음성을 끼워 넣는 구조였다. 3.1은 처음부터 멀티모달 네이티브로 설계됐다고 한다.

기존 Gemini 2.x랑 뭐가 다른 거야

Gemini 2.x까지는 이미지를 넣으면 텍스트로 변환해서 처리하는 파이프라인이 내부에 있었다. 이게 왜 문제냐면, 변환 과정에서 손실이 생긴다. 차트의 미묘한 색상 차이, 손글씨의 필압 같은 정보가 날아간다.

Gemini 3.1은 이미지와 텍스트를 같은 레이어에서 처리한다. 실제로 써보면 차트 분석에서 차이가 느껴진다. "이 그래프에서 3월 데이터가 왜 튀는지 설명해줘" 같은 질문에 이전보다 구체적인 답이 나온다.

음성도 달라졌나

TTS 품질 얘기는 3월에 따로 Gemini TTS API 업데이트가 있었는데, 3.1과 맞물려서 실시간 음성 이해도가 꽤 올랐다. 영어 기준으로 억양이나 감정이 반영된 뉘앙스 파악이 좋아졌다는 리뷰가 많았다. 한국어는 아직 영어보다 성능 차이가 있다.

추론 능력 측면에서는

이번 Gemini 3.1에서 주목할 부분 중 하나가 멀티모달 + 추론의 결합이다. 이미지를 보면서 추론 체인을 실행하는 게 이전보다 자연스러워졌다.

예를 들어 코드 스크린샷을 주고 "이 코드에 버그가 있어?" 라고 물으면 — Gemini 2.x는 화면에 보이는 텍스트를 읽어서 분석하는 느낌이었는데, 3.1은 코드 구조 자체를 시각적으로 이해하는 것처럼 답한다.

컨텍스트 창도 늘었다

Gemini 3.1 Ultra의 컨텍스트 창이 2M 토큰으로 올라갔다. 이게 실용적으로 의미 있는 게, 긴 PDF나 코드베이스 전체를 한 번에 넣고 작업하는 게 가능해진다.

다만 2M 토큰 풀 컨텍스트는 Pro 티어 이상에서만 된다. 무료나 기본 티어에선 제한이 있다.

GPT-5.4, Grok 4.20이랑 비교하면

3월에 세 모델이 다 나왔으니 비교하지 않을 수가 없다. 개인 경험 기준으로 정리하면:

GPT-5.4는 안정성 게임이다. 할루시네이션이 줄었고 긴 작업에서 일관성이 좋다. 에이전트 워크플로우에서 신뢰도가 중요하면 여기.
Gemini 3.1은 멀티모달이 필요하거나 Google 생태계를 쓴다면 자연스러운 선택.
Grok 4.20은 실시간 웹 정보가 중요한 작업에서 강하다. X(트위터) 실시간 데이터 접근이 유일한 모델이다.

세 모델이 다 잘하는 영역이 달라서 "뭐가 최고야" 라는 질문보다 "내 작업에 뭐가 맞아" 가 더 실용적인 질문이 됐다.

써볼 만한가

Gemini Advanced 구독자면 이미 3.1 Ultra 쓸 수 있다. Google AI Studio에서 API로도 접근 가능하다. Google Workspace 사용자라면 Gemini for Workspace에도 점진적으로 적용된다고 하니 업무 용도로도 곧 만날 수 있을 것 같다.

멀티모달 작업이 많다면 한번 테스트해볼 가치는 있다. 이전 Gemini들보다는 확실히 달라진 게 느껴진다.


📎 참고 자료

반응형