본문 바로가기
AI.IT

Llama 4 나왔는데, 오픈소스 AI가 GPT-5.4랑 싸워도 된다고?

by bamsik 2026. 4. 5.
반응형

4월에 Llama 4가 나왔다, 근데 분위기가 좀 달랐다

요즘 AI 소식이 너무 빠르게 터져서, 솔직히 뭘 중요하게 봐야 할지 모르겠을 때가 있다. 지난주에도 발표가 쏟아졌는데, 그중에서 개인적으로 유독 눈이 간 건 Llama 4였다.

오픈소스 모델이 GPT-5.4 같은 상업 모델이랑 실제로 비교되는 시대가 왔다는 게 느껴졌다고 할까. 1~2년 전만 해도 "오픈소스는 성능 차이가 커서..." 하는 말이 당연하게 통했는데, 이제는 그 말이 조금 달라진 것 같다.

2026년 4월 AI 판도, 다섯 줄 요약

지금 상황을 간단히 정리하면 이렇다.

  • Gemini 3.1 Pro: 현재 주요 벤치마크 16개 중 13개 1위. Google이 조용히 상위권을 차지했다
  • GPT-5.4: OpenAI는 5.3 나오자마자 5.4를 바로 냈다. 다음 분기에는 GPT-5.5(코드명 Spud)를 예고 중
  • Claude Sonnet 4.6: 실제 업무 평가에서 강세. 벤치마크보다 "써보니 다르다"는 반응이 많다
  • Grok 4.20: 멀티에이전트 아키텍처를 새로 도입했다. 구조 자체가 바뀐 거라 의미가 다르다
  • Llama 4: Meta의 오픈소스 모델. 상업 프론티어 모델과 실질적으로 경쟁하는 수준이 됐다는 평가가 나오고 있다

Llama 4가 진짜 달라진 이유

Llama 3까지는 "오픈소스치고는 꽤 괜찮다" 수준이었다. Llama 4는 그 앞에 붙은 수식어가 달라졌다. "오픈소스치고가 아니라 그냥 괜찮다"는 말이 나오기 시작한 것.

코딩 벤치마크에서 GPT-5.4 mini와 비교해도 크게 밀리지 않는 수치가 나왔고, 로컬 배포나 파인튜닝이 가능하다는 장점은 여전히 살아 있다. 실제로 돌려봤는데, 한국어 지시 이해도도 이전 버전보다 확실히 올라간 게 느껴졌다.

특히 기업 입장에서는 데이터가 외부로 안 나간다는 게 중요한 포인트다. 상업 API를 쓰면 프롬프트가 외부 서버로 나가는 구조인데, Llama 4를 온프레미스로 돌리면 그 문제가 없다.

그럼 GPT-5.4는 뭐가 다른가

OpenAI가 5.3 출시 후 바로 5.4를 내놓은 건 조금 이례적이었다. 버전 간격이 짧아졌다는 건 경쟁이 그만큼 빨라졌다는 신호이기도 하다.

GPT-5.4의 주요 개선은 지시 따르기 정확도와 긴 컨텍스트 처리다. 긴 문서를 잘 요약하거나, 복잡한 조건이 많은 작업에서 더 일관되게 결과를 낸다는 평이 있다. 반면 창작이나 추론 깊이 면에서는 Gemini 3.1 Pro에 밀린다는 평가도 동시에 나온다.

Claude Mythos라는 이름이 갑자기 떴다

3월 말, Anthropic 내부 파일이 유출되면서 새로운 모델 이름이 알려졌다. 코드명은 Capybara, 공개 이름은 Claude Mythos. Anthropic은 유출 사실을 부정하지 않았고, "능력이 상당해서 출시를 신중하게 검토 중"이라고만 했다.

Opus보다 상위에 위치하는 모델이고, 추론·코딩·사이버보안에서 의미 있는 발전이 있다고 한다. 언제 나올지는 미정이지만, 이미 존재한다는 건 확인된 셈이다.

솔직히 지켜봐야 할 건 이거다

벤치마크 숫자는 계속 올라가는데, 실제 작업에서 "이 모델이 확실히 낫다"는 체감이 이전보다 줄고 있다. 어떤 모델을 써도 웬만한 건 된다는 느낌. 오히려 차이가 나는 건 가격, 응답 속도, 그리고 특정 작업에서의 일관성이다.

Llama 4 같은 오픈소스 선택지가 강해질수록, 상업 모델은 "그냥 잘되는 것"만으로는 선택받기 어려워진다. 2026년 하반기가 지나면 어떤 모델이 진짜로 살아남을지, 그게 지금 더 흥미로운 관전 포인트다.

한 줄 정리

Llama 4로 오픈소스가 프론티어 경쟁에 진입했고, Gemini 3.1 Pro가 벤치마크 상단을 차지하고 있다. Claude Mythos가 언제 나오느냐가 5월의 변수가 될 것 같다.


📎 참고 자료

반응형