프롬프트부터 고치지 말고 평가셋부터 만들자, AI 기능이 덜 흔들리는 이유

잘 안 되면 프롬프트부터 손대는 습관, 나도 아직 있다

AI 기능 만들 때 제일 먼저 하게 되는 게 프롬프트 수정이다. 답이 이상하면 문장 바꾸고, 역할 추가하고, 제약 넣고, 다시 돌린다. 나도 늘 그렇게 시작한다. 근데 어느 순간부터는 이 방식이 한계가 분명해졌다. 오늘 좋아진 것 같다가도 내일 다른 입력에서 무너지고, 모델 바꾸면 또 다시 흔들린다. 결국 기준 없이 감으로 만지는 셈이기 때문이다.

OpenAI의 evals 가이드를 읽어보면 이 문제를 꽤 정직하게 다룬다. 먼저 해야 할 건 “무슨 출력을 좋은 결과로 볼지”를 정의하는 일이다. 즉 프롬프트보다 평가셋과 테스트 기준이 먼저다. 이 순서가 바뀌면 모델이나 프롬프트를 바꿀 때도 무엇이 나아졌는지, 무엇이 망가졌는지 비교가 가능해진다.

평가셋이 있으면 감정이 아니라 데이터로 보게 된다

평가셋이라고 해서 거창할 필요는 없다. 실제 사용자가 자주 넣는 질문 20개, 애매한 경계 사례 10개, 절대 틀리면 안 되는 항목 10개만 모아도 시작은 된다. 중요한 건 샘플 수보다 대표성이다. 그리고 각 케이스마다 기대 결과를 적어두면, 프롬프트 수정이 개선인지 착시인지 보기가 쉬워진다.

Anthropic의 hallucination 감소 가이드도 비슷한 방향을 말한다. 모르면 모른다고 하게 만들고, 인용으로 근거를 확인하고, 직접 인용을 먼저 뽑게 해서 답변을 검증 가능한 형태로 바꾸라는 식이다. 이건 결국 평가 가능한 출력 구조를 만들라는 얘기다. 막연한 “더 똑똑하게 답해”보다 훨씬 실무적이다.

모델 교체가 잦을수록 더 필요하다

요즘은 모델 주기가 너무 빠르다. 새 버전이 나오면 한 번 갈아타보고 싶고, 비용이나 속도 때문에 다른 모델도 계속 검토하게 된다. 이때 평가셋이 없으면 매번 수동 체감 테스트로 돌아간다. 그러면 바뀐 점을 정확히 기억하기도 어렵고, 팀 내 합의도 흐려진다. 반대로 평가셋이 있으면 최소한 “분류 정확도는 좋아졌는데 거절 문구 일관성은 떨어졌다” 같은 식으로 비교가 된다.

실무에서는 이런 비교가 진짜 중요하다. 모델은 더 좋아졌는데 사용자 경험은 나빠질 수도 있거든요. 말투가 너무 딱딱해지거나, 필요 이상으로 거절이 많아질 수도 있다. 평가셋이 있으면 이런 변화를 빨리 잡아낼 수 있다.

작게 시작해도 충분하다

처음부터 완벽한 벤치마크를 만들 필요는 없다. 오히려 작게 시작해서 계속 늘리는 편이 낫다. 자주 실패한 사례를 하나씩 추가하고, 릴리즈 전에 기본 세트만이라도 돌려보는 식이면 된다. 해봤더니 결국 중요한 건 정교함보다 지속성이었다. 계속 돌리는 평가셋 하나가, 멋진 프롬프트 백 개보다 더 오래 간다.

프롬프트 튜닝은 여전히 필요하다. 다만 기준이 없는 튜닝은 금방 흔들린다. 요즘 AI 기능이 생각보다 불안정하게 느껴진다면, 문장 하나 더 다듬기 전에 평가셋부터 만들어보는 게 훨씬 낫다.

📎 참고 자료

'tip' 카테고리의 다른 글

종합소득세, 5월 전에 미리 정리하면 덜 힘든 이유 (0)	2026.04.07
4월 자외선, 흐린 날이라도 방심하면 안 되는 이유 (0)	2026.04.07
근로장려금, 신청 안 하면 그냥 날린다 (0)	2026.04.04
8시간 자도 피곤한 이유, 수면 질 문제였다 (0)	2026.04.04
적금이랑 예금, 뭐가 다른 건지 몰랐다 (0)	2026.04.04

KnightK

프롬프트부터 고치지 말고 평가셋부터 만들자, AI 기능이 덜 흔들리는 이유

잘 안 되면 프롬프트부터 손대는 습관, 나도 아직 있다

평가셋이 있으면 감정이 아니라 데이터로 보게 된다

모델 교체가 잦을수록 더 필요하다

작게 시작해도 충분하다

📎 참고 자료

'tip' 카테고리의 다른 글

티스토리툴바

프롬프트부터 고치지 말고 평가셋부터 만들자, AI 기능이 덜 흔들리는 이유

잘 안 되면 프롬프트부터 손대는 습관, 나도 아직 있다

평가셋이 있으면 감정이 아니라 데이터로 보게 된다

모델 교체가 잦을수록 더 필요하다

작게 시작해도 충분하다

📎 참고 자료

'tip' 카테고리의 다른 글

관련글

티스토리툴바