본문 바로가기
AI.IT

Gemma 4 써봤는데, 오픈소스 AI가 이 정도까지 올라왔다

by bamsik 2026. 4. 4.
반응형

오픈소스 AI가 이 정도면, API 비용 낼 이유가 있나?

혹시 매달 AI API 비용 보면서 한숨 쉰 적 없나요? 나는 있다. 프로토타입 하나 돌리는데 한 달에 몇십 달러씩 나가니까. 근데 Google이 4월 2일에 공개한 Gemma 4를 보고, 이제 좀 달라질 수 있겠다 싶었다.

Gemma 4가 뭐가 다른데

Gemma 4는 Google DeepMind가 만든 오픈 모델이다. Apache 2.0 라이선스라 상업적으로도 자유롭게 쓸 수 있다. 사이즈는 4가지: E2B(2B급), E4B(4B급), 26B MoE, 31B Dense.

주목할 만한 건 성능이다. 31B 모델이 Arena AI 텍스트 리더보드에서 오픈 모델 중 3위를 찍었다. 26B MoE는 6위. 자기보다 20배 큰 모델을 이기는 경우도 있다고 하니까, 파라미터 대비 효율이 상당하다는 거다.

짧게 말하면, 31B짜리 모델로 예전에 600B 모델이 하던 수준의 작업을 할 수 있다는 뜻이다.

내 노트북에서 돌릴 수 있다고?

이게 제일 마음에 든 부분이다. Gemma 4는 의도적으로 사이즈를 줄여서, 일반 개발자 워크스테이션은 물론이고 노트북 GPU에서도 돌릴 수 있게 설계됐다. E2B 모델은 심지어 안드로이드 기기에서도 돌아간다.

직접 해봤더니, M시리즈 맥에서 E4B 모델은 꽤 쓸 만했다. 코드 생성이나 간단한 요약 작업 정도는 API 호출 없이 로컬에서 처리할 수 있었다. 응답 속도도 나쁘지 않고.

물론 31B Dense를 노트북에서 돌리려면 좀 빡빡하다. 이건 워크스테이션급이나 클라우드 GPU가 필요하다. 하지만 26B MoE는 실제 활성 파라미터가 4B 수준이라 의외로 가벼운 편이다.

에이전트 워크플로우가 되는 오픈 모델

Gemma 4의 또 다른 강점은 에이전트 기능이다. 함수 호출(Function Calling), JSON 구조화 출력, 시스템 명령어를 네이티브로 지원한다. 이게 뭔 소리냐면, 도구를 연결해서 자동으로 작업을 수행하는 AI 에이전트를 오픈소스 모델로 만들 수 있다는 거다.

그동안 에이전트 만들려면 GPT-4나 Claude 같은 상용 API를 쓸 수밖에 없었는데, 이제 로컬에서 돌아가는 오픈 모델로도 가능해진 셈이다. 비용 절감 측면에서 꽤 큰 변화다.

한계도 있다

솔직히 말하면, 최상위 상용 모델(GPT-5, Claude 4급)과 비교하면 복잡한 추론에서는 아직 차이가 느껴진다. 특히 길고 복잡한 맥락을 다루는 작업에서는 큰 모델이 확실히 낫다.

그리고 다운로드 수 4억 회라고 자랑하긴 하는데, 실제로 프로덕션에 넣어서 쓰는 비율은 훨씬 적을 거다. 오픈소스 모델은 직접 서빙 인프라를 관리해야 하니까, 그 부담이 만만치 않거든.

그래도 방향 자체는 명확하다. 오픈소스 AI 모델의 성능이 빠르게 올라오면서, "꼭 API를 써야 하나?"라는 질문에 대한 답이 점점 바뀌고 있다. 특히 비용에 민감한 스타트업이나 개인 개발자한테는 반가운 소식이다.


📎 참고 자료

반응형