본문 바로가기
AI.IT

GPT-5.4 vs Gemini 3.1 vs Claude 4.6, 4월에 셋 다 써보고 정리했다

by bamsik 2026. 4. 8.
반응형

GPT-5.4 vs Gemini 3.1 vs Claude 4.6, 4월에 셋 다 써보고 정리했다

AI 모델 비교글은 쓰면서도 좀 조심스럽다. 벤치마크 수치로 줄 세우는 건 쉬운데, 실제로 쓰는 사람 입장에선 다른 게 중요할 때가 많으니까. 이번엔 수치보다는 실제로 써보면서 느낀 차이를 정리해봤다.

4월 기준으로 주요 AI 모델 현황은 이렇다. OpenAI의 GPT-5.4, Google의 Gemini 3.1 Pro, Anthropic의 Claude 4.6이 각각 업데이트됐다. 벤치마크에서는 Gemini 3.1 Pro가 ARC-AGI-2에서 77.1%로 앞서 있고, GPT-5.4는 native computer use가 추가됐다.

코딩 작업에서 느낀 차이

주로 코드 작성하고 디버깅하는 데 쓰는 나한테는 Claude가 여전히 편하다. 긴 코드 맥락을 끊지 않고 이어가는 게 잘 되고, "왜 이렇게 짰는지" 설명을 요청하면 납득 가는 답이 나온다.

GPT-5.4는 browser/computer use가 붙어서 실제 UI 자동화 테스트 시나리오에서 활용했는데 꽤 인상적이었다. 화면 보고 클릭하라는 거 직접 실행하는 게 신기하긴 했는데, 실패율이 아직 높아서 프로덕션 쓰기엔 이르다.

Gemini 3.1은 멀티모달 작업에서 강하다는 게 체감된다. 이미지 분석이나 문서 처리 쪽으로는 셋 중에 제일 나은 것 같고, 긴 문서를 요약하거나 여러 PDF를 합쳐서 분석할 때 특히 빠르다.

가격 비교

Gemini 3.1 Pro는 GPT-5.4 Pro 대비 약 1/3 수준의 비용으로 비슷한 성능을 낸다는 게 포인트다. 코스트에 민감한 프로젝트라면 Gemini 쪽이 실질적으로 더 낫다.

Claude는 중간 정도 가격대인데, 코딩 특화 작업에서는 가격 대비 만족도가 높다. Haiku 같은 경량 모델이 꽤 쓸 만해서 비용 조절이 유연하다는 것도 장점이다.

그래서 뭘 써야 하냐면

이 질문에 정답은 없다. 작업 성격에 따라 다르다.

코딩, 글쓰기, 분석 → Claude / 멀티모달, 긴 문서, 비용 효율 → Gemini / UI 자동화, 에이전트, 범용 → GPT-5.4

다 갖다 쓰는 게 현실이긴 한데, 하나만 골라야 한다면 요즘은 Gemini 3.1 Pro를 좀 더 쓰게 된다. 빠르고, 저렴하고, 멀티모달이 잘 된다.

아직 아쉬운 건

세 모델 모두 "확신이 없을 때도 자신 있게 말하는" 문제는 여전하다. 특히 최신 정보가 필요한 질문에서 그냥 아는 척 하는 경우가 있다. 중요한 정보는 여전히 검증이 필요하다.


📎 참고 자료

반응형