LLM 성능 평가, 스탠퍼드 2026 리포트가 불편한 진실 꺼냈다

처음엔 벤치마크 점수가 전부인 줄 알았다

LLM 성능 평가 기준으로 벤치마크 점수를 써왔다면, 스탠퍼드 2026 AI Index를 한 번 봐야 한다. 실험실 수치와 실제 업무 현장 사이의 격차가 얼마나 큰지, 구체적인 데이터로 드러났다. 나도 그 보고서 읽기 전까진 MMLU 몇 퍼센트, HumanEval 몇 퍼센트 보고 모델 골라왔다. 숫자가 높은 쪽 쓰면 되겠지 싶었다.

근데 이번에 스탠퍼드가 내놓은 2026 AI Index 보고서 읽으면서 생각이 좀 달라졌다. 보고서 자체는 423페이지짜리 방대한 자료인데, 중간에 박힌 몇 개 수치가 꽤 불편했다.

스탠퍼드 2026 AI 인덱스가 꺼낸 수치들

할루시네이션 1% 미만이라더니, 실제 업무에선 69~88%

AI 기업들이 발표하는 할루시네이션 오류율은 대개 1% 미만이다. 공식 기술 문서에 그렇게 나온다. 근데 스탠퍼드 HAI(인간 중심 AI 연구소) 연구팀이 법률 분야 AI를 실제 복잡한 멀티 문서 태스크에 적용해봤더니 오류율이 69~88%까지 올라갔다. 같은 모델이다.

1%와 69%는 같은 숫자가 아니다. 뭔가 이상하다. 이전에 AI 코딩 도구 쓰면 19% 느려진다는 연구, 실제 어떻게 된 건가에서 다룬 것처럼, AI 성능 지표와 현장 체감이 어긋나는 건 이번이 처음이 아니다. 근데 이 정도 격차는 예상보다 컸다.

이유가 있다. 벤더가 발표하는 벤치마크는 딱 정해진 문제, 단일 문서, 명확한 정답이 있는 상황에서 측정한다. 실제 법률 업무는 여러 문서를 교차 참조하고, 애매한 표현이 넘치고, 문맥이 수백 페이지에 걸쳐 있다. 그 조건에서 측정하면 숫자가 달라진다.

'Jagged Frontier' — AI가 시계를 못 읽는다

보고서에서 나온 개념 중에 "들쭉날쭉한 경계선(Jagged Frontier)"이라는 말이 있다. AI 능력의 지형이 고르지 않다는 뜻이다. 과학·의학 분야 추론이나 수학 문제에서는 인간 수준을 넘어섰는데, 시계 이미지 보고 시간 맞추기 같은 단순한 공간·시간 인식에서는 아직도 헤맨다.

이게 왜 중요하냐면, 벤치마크 평균 점수 하나로 모든 걸 판단하기 어렵다는 얘기다. 80점짜리 모델이 내가 실제로 쓰는 태스크에서 30점일 수도 있고, 90점짜리가 전혀 다른 영역에서 60점일 수도 있다. 점수가 고르게 분포하지 않는다.

클로드 계열을 직접 써봤을 때도 비슷하게 느꼈는데, 긴 코드 리뷰나 복잡한 설계 문서 분석은 잘 하는데 특정 포맷 변환에서 갑자기 엉뚱한 결과가 나오는 경우가 있었다. 그게 Jagged Frontier의 실제 예다.

왜 이런 격차가 생기나

데이터 오염: 시험지를 미리 외운 셈

연구자들이 추정하기로는 주요 벤치마크 데이터셋의 15~30%가 이미 모델 학습 데이터에 포함돼 있을 가능성이 있다. 시험 문제를 미리 공부하고 시험 본 것과 비슷한 상황이다. MMLU, GSM8K, HumanEval 같은 벤치마크는 공개된 지 꽤 됐고, 그 사이에 수집된 웹 데이터에 당연히 포함됐을 거다.

실제로 수학 능력을 측정하는 한 주요 벤치마크에서 오류율이 42%에 달한다는 신뢰성 문제도 지적됐다. 벤치마크 자체가 잘못 만들어졌거나 오염됐을 가능성이 있다는 얘기다.

정적 평가 vs 실제 환경의 동적 복잡성

벤치마크는 기본적으로 고정된 입력에 고정된 정답을 비교하는 방식이다. 한 번 물어보고 끝. 근데 실제 업무는 다르다. 여러 번 대화하면서 문맥이 쌓이고, 사용자가 피드백 주고, 오류 수정하고, 원래 의도가 바뀌기도 한다. 이 과정에서 생기는 오류 누적이나 맥락 이탈은 정적 벤치마크로 잡아내기 어렵다.

스탠퍼드 보고서가 직접 쓴 표현이 있다. "AI 역량은 실험실에서 빠르게 향상되고 있지만, 실제 업무에서의 신뢰성은 벤치마크가 제시하는 수준에 일관되게 못 미친다." 잘 정리된 말이다.

덧붙이자면, 바이브 코딩 툴을 직접 비교해봤을 때도 비슷한 패턴이 있었다. 공식 성능 수치는 다 비슷했는데 실제 쓰다 보면 확실히 체감이 달랐다.

그러면 벤치마크를 어떻게 봐야 하나

벤치마크가 쓸모없다는 말은 아니다. 방향성을 잡는 데는 분명히 도움이 된다. 같은 조직이 같은 방식으로 측정한 거라면 상대 비교는 의미 있다. 근데 절대값으로 믿으면 안 된다는 거다.

현실적으로 가장 좋은 방법은 실제 업무에서 쓰는 태스크로 직접 테스트해보는 거다. 내가 만드는 서비스에서 흔히 발생하는 입력 패턴, 엣지 케이스, 오류 상황을 직접 넣어봐야 한다. 벤치마크 상위 모델이 내 케이스에서 꼭 좋다는 보장은 없다.

솔직히 말하면, 이 방법도 번거롭다. 모델마다 다 테스트해보는 건 시간이 많이 들고, 버전 업데이트 때마다 다시 해야 한다. 그냥 점수 높은 거 쓰고 싶은 마음도 든다. 근데 스탠퍼드 데이터 보고 나서는 최소한 내 핵심 태스크 한두 개는 직접 검증해보는 습관이 생겼다.

벤치마크는 입구다. 출구는 여전히 내 손으로 열어야 한다.

📎 참고 자료

📌 함께 보면 좋은 글

저작자표시 비영리 변경금지 (새창열림)

'AI.IT' 카테고리의 다른 글

Claude Design 출시, 대화로 프로토타입 만드는 Anthropic의 새 도구 (1)	2026.04.19
GitHub Copilot Free 한 달 쓰면 충분할 줄 알았다, 실제론 달랐다 (0)	2026.04.19
Claude Opus 4.7 출시, SWE-bench Pro 64.3%로 코딩 1위 탈환했다 (0)	2026.04.17
AI 코딩 도구 쓰면 19% 느려진다는 연구, 실제 어떻게 된 건가 (0)	2026.04.17
Ollama 0.19 MLX 전환 후기, 맥북 로컬 AI가 이렇게 달라졌다 (1)	2026.04.16

KnightK

LLM 성능 평가, 스탠퍼드 2026 리포트가 불편한 진실 꺼냈다

처음엔 벤치마크 점수가 전부인 줄 알았다

스탠퍼드 2026 AI 인덱스가 꺼낸 수치들

할루시네이션 1% 미만이라더니, 실제 업무에선 69~88%

'Jagged Frontier' — AI가 시계를 못 읽는다

왜 이런 격차가 생기나

데이터 오염: 시험지를 미리 외운 셈

정적 평가 vs 실제 환경의 동적 복잡성

그러면 벤치마크를 어떻게 봐야 하나

📎 참고 자료

📌 함께 보면 좋은 글

'AI.IT' 카테고리의 다른 글

티스토리툴바

LLM 성능 평가, 스탠퍼드 2026 리포트가 불편한 진실 꺼냈다

처음엔 벤치마크 점수가 전부인 줄 알았다

스탠퍼드 2026 AI 인덱스가 꺼낸 수치들

할루시네이션 1% 미만이라더니, 실제 업무에선 69~88%

'Jagged Frontier' — AI가 시계를 못 읽는다

왜 이런 격차가 생기나

데이터 오염: 시험지를 미리 외운 셈

정적 평가 vs 실제 환경의 동적 복잡성

그러면 벤치마크를 어떻게 봐야 하나

📎 참고 자료

📌 함께 보면 좋은 글

'AI.IT' 카테고리의 다른 글

관련글

티스토리툴바