
Gemini 3.5 Flash 공개 소식에서 봐야 할 건 단순한 모델 성능표가 아니다. 구글이 AI 코딩 도구를 “답변하는 챗봇”보다 “작업을 끝까지 밀고 가는 실행 환경”으로 다시 정의하려는 흐름이 더 중요하다.
Flash인데 왜 코딩 에이전트 이야기가 먼저 나왔나
구글은 5월 19일 Gemini 3.5 계열을 발표하면서 첫 모델로 Gemini 3.5 Flash를 꺼냈다. 이름만 보면 가벼운 고속 모델처럼 들리는데, 발표문에서 강조한 방향은 꽤 다르다. 구글은 3.5 Flash를 “agents and coding”에 강한 모델로 설명했고, 긴 시간 이어지는 작업과 실제 유틸리티를 반복해서 언급했다.
숫자도 그쪽을 향해 있다. 구글 발표 기준으로 3.5 Flash는 Terminal-Bench 2.1에서 76.2%, MCP Atlas에서 83.6%를 기록했다고 한다. 또 출력 토큰 속도는 다른 프런티어 모델보다 4배 빠르다고 설명했다. 이 수치만으로 실제 개발 현장 성능을 단정하긴 어렵지만, 구글이 무엇을 팔고 싶은지는 분명하다. 빠른 답변이 아니라 빠르게 계획하고, 실행하고, 다시 고치는 에이전트 루프다.
나도 요즘 Claude Code나 Codex 계열 도구를 굴려보면, 모델의 한 문장 답변 품질보다 반복 루프의 체감 차이가 더 크게 느껴진다. 테스트를 돌리고, 에러를 읽고, 파일을 다시 고치고, 그 과정을 오래 버티는지가 중요하다. Gemini 3.5 Flash 발표가 흥미로운 이유도 여기 있다. “Flash”라는 이름과 달리, 실제 메시지는 가벼움보다 지속 실행 쪽에 가깝다.
Antigravity와 붙으면 의미가 달라진다
이번 발표에서 그냥 모델만 보면 반쪽이다. 구글은 Gemini 3.5 Flash를 Gemini API, Google AI Studio, Android Studio뿐 아니라 Google Antigravity와 연결해 내놨다. Antigravity는 구글이 밀고 있는 에이전트 우선 개발 플랫폼이다. 그러니까 이번 발표는 “새 모델 나왔다”가 아니라 “모델과 실행 하네스를 같이 밀겠다”는 쪽으로 읽는 게 맞다.
AI 코딩 도구 경쟁은 이미 IDE 자동완성 수준을 지나갔다. Claude Code는 터미널에서 프로젝트를 읽고 고친다. OpenAI Codex도 코드베이스 단위 작업을 전제로 움직인다. 구글은 여기에 Gemini 3.5 Flash와 Antigravity 조합으로 들어오려는 모양새다. 모델이 빠르면 단순히 답변이 빨라지는 게 아니라, 에이전트가 더 많은 탐색과 수정 시도를 할 수 있다. 이게 핵심이다.
물론 빠르다고 항상 좋은 건 아니다. 빠른 모델은 잘못된 방향으로도 빠르게 달릴 수 있다. 최근 AI 코딩 에이전트가 파일을 크게 날리거나 엉뚱한 복구 보고서를 만들었다는 사례가 계속 나오는 이유도 여기에 있다. 속도와 자율성이 올라갈수록, 개발자는 모델을 덜 감시해도 되는 게 아니라 감시 구조를 더 잘 설계해야 한다.
Claude Code, Codex와의 경쟁 포인트
지금 AI 코딩 시장을 보면 구도는 꽤 선명하다. Anthropic은 Claude Code를 앞세워 “코드베이스를 맡기는 터미널 에이전트” 이미지를 만들었다. OpenAI는 Codex로 코드 작성과 리뷰, 작업 위임의 흐름을 밀고 있다. 구글은 그동안 Gemini 모델 자체는 강했지만, 개발자가 매일 쓰는 에이전트 경험에서는 상대적으로 덜 또렷했다.
Gemini 3.5 Flash는 이 빈틈을 메우려는 카드로 보인다. 특히 구글이 강조한 MCP Atlas 같은 지표는 우연히 들어간 이름이 아니다. 개발 도구, 문서, 외부 시스템을 연결하는 흐름에서 모델이 얼마나 안정적으로 맥락을 유지하는지가 중요해졌기 때문이다. 이제 모델은 코드만 잘 짜면 부족하다. 도구 호출, 파일 탐색, 테스트 실행, 변경 이유 설명까지 한 덩어리로 처리해야 한다.
그래서 이 발표를 Claude Code의 대체재 등장으로만 보면 조금 좁다. 더 정확히는 AI 코딩 도구의 평가 기준이 바뀌고 있다는 신호다. 예전엔 “이 모델이 함수를 얼마나 잘 짜나”를 봤다면, 이제는 “작업을 맡겼을 때 어디까지 망가지지 않고 버티나”를 봐야 한다.
개발자가 지금 봐야 할 건 벤치마크보다 통제 방식이다
Gemini 3.5 Flash가 실제로 얼마나 좋은지는 직접 프로젝트에 넣어봐야 안다. 공식 발표의 벤치마크는 출발점일 뿐이다. 특히 코딩 에이전트는 데모와 실전 차이가 크다. 작은 예제에서는 멀쩡한데, 오래된 코드베이스와 애매한 테스트 환경에 넣으면 갑자기 판단력이 흔들리는 일이 많다.
그래도 이번 발표에서 건질 포인트는 분명하다. 앞으로 AI 코딩 도구를 고를 때는 모델 이름보다 다음 세 가지를 먼저 봐야 한다.
- 작업 전후 diff를 얼마나 명확하게 보여주는가
- 테스트 실패나 롤백 상황에서 멈추고 설명하는가
- 외부 도구와 연결됐을 때 권한 경계가 분명한가
나는 이 흐름이 꽤 현실적이라고 본다. 개발자는 AI에게 코드를 한 줄씩 부탁하는 방식에서, 작은 작업 단위를 통째로 맡기는 방식으로 이동하고 있다. 다만 그만큼 검토 비용도 같이 올라간다. AI가 더 많은 코드를 쓰면, 사람은 더 많은 결정을 검수해야 한다. 이 부분을 무시하면 생산성 향상보다 사고 처리 시간이 먼저 늘어난다.
Gemini 3.5 Flash 공개는 구글의 모델 발표이기도 하지만, 더 크게 보면 AI 개발 도구 경쟁의 방향 전환이다. 빠른 모델, 에이전트 플랫폼, 도구 연결, 긴 작업 유지력. 이 네 가지가 한 묶음으로 움직이기 시작했다. 이제 질문은 “어느 모델이 더 똑똑한가”가 아니라, “어느 환경에 일을 맡겼을 때 끝까지 통제 가능한가”에 가까워졌다.
참고한 자료
- Google 공식 발표: Gemini 3.5
- Google: Gemini 앱의 에이전트 기능 확장
- MIT Technology Review: Code with Claude 현장 리포트
- OpenAI: Realtime API voice 모델 발표
📌 함께 보면 좋은 글
'AI.IT' 카테고리의 다른 글
| 트럼프 백악관 외 16건 — Interaction Brief 5월 25일 (0) | 2026.05.25 |
|---|---|
| 메타 레이밴 WhatsApp 연동, Hermes까지 붙이면 달라지는 것 (0) | 2026.05.23 |
| Claude 커스텀 MCP, 개인 기억 시스템을 연결해본 기록 (0) | 2026.05.21 |
| Antigravity CLI·SDK 비교, Claude Code와 Codex 사이에서 어디가 다른가 (0) | 2026.05.20 |
| 금융 AI 신뢰 문제, Kepler가 찾은 해답은 Claude와 검증 레이어 분리 (0) | 2026.05.20 |