본문 바로가기
AI.IT

Claude Code 토큰 65% 절감 케이브맨 스킬, 진짜 쓸 만한 건 따로 있다

by bamsik 2026. 5. 12.
반응형
AI CODING / TOKEN ECONOMY

Claude Code 토큰 65% 절감 케이브맨 스킬,
진짜 쓸 만한 건 따로 있다

출력 압축보다 중요한 건 매 세션마다 반복 투입되는 입력 토큰이다. Caveman 스킬의 진짜 쓸모를 /caveman-compress 중심으로 정리했다.

출력 토큰
65%
평균 절감 주장
메모리 압축
46%
누적 입력 절감
핵심 명령
compress
한 번 줄이면 계속 절약
ONE LINE

케이브맨은 출력 토큰보다 CLAUDE.md 같은 반복 입력 파일을 줄일 때 ROI가 커진다.

CONCEPT MAP
출력 압축

응답 한 번이 짧아진다. 빠르고 저렴하지만 효과는 해당 대화에서 끝난다.

입력 압축

메모리 파일이 줄어든다. 이후 모든 세션의 기본 비용을 낮춘다.

Claude Code 매일 굴리는 입장에서 토큰 비용은 무시 못 한다. 최근 화제인 케이브맨(Caveman) 스킬이 출력 토큰 평균 65%를 줄여준다는데, 직접 GitHub 저장소를 뜯어보니 진짜 가치는 다른 곳에 있었다. 출력 압축은 사실 부수적이고, 매 세션마다 누적되는 입력 토큰을 줄여주는 서브 기능이 핵심이다.


한 줄 결론: 케이브맨은 출력 토큰을 평균 65% 줄여준다고 광고하는데, 직접 뜯어보면 진짜 가치는 /caveman-compress다. 출력은 매번 새로 나와서 한 번 짧으면 한 번 절감이고 끝이지만, CLAUDE.md 같은 메모리 파일은 매 세션 누적되니까 한 번 줄여놓으면 영구 절약이다.


출력 65% 절감, 사실 그게 전부는 아니다

케이브맨 저자(Julius Brussee)가 공개한 벤치마크는 실전 질문 10개를 기준으로 했다. 리액트 리렌더링 원인 설명, 인증 미들웨어 수정, 도커 멀티 스테이지 빌드 작성처럼 진짜 개발자가 던지는 질문들이다.

결과는 명확하다. 평균 출력 토큰이 1,214에서 294로 떨어졌다. 65% 절감, 최대 87%까지 갔다. 응답 속도도 약 3배 빨라졌다. 더 중요한 건 비교 기준이다. 그냥 길게 답하는 기본 모드가 아니라, "짧게 답해줘"라고 미리 부탁한 모드와 비교했다. 이미 압축된 출력보다도 더 줄였다는 의미라 수치가 정직하다.

방식은 단순하다. 마크다운 스킬 파일 한 장에 "인사말 빼, 단답해, 기술 용어 영어는 그대로 유지" 같은 룰을 박아둔다. 신입한테 사내 이메일 톤 알려주는 거랑 똑같다.

강도는 네 단계다. lite는 군더더기만 빼고, full이 기본값, ultra는 전보 스타일, wenyan은 한자(고문) 모드다. wenyan은 영어보다 글자 수가 짧다는 컨셉인데, 한국어로 일하는 환경에선 가독성이 떨어져서 실용성은 낮다.

여기까지는 "토큰 줄이는 스킬" 수준이다. 인터넷에 비슷한 시도가 이미 많다. 그런데 저장소를 더 뜯어보면 다른 기능 하나가 훨씬 중요하다.

진짜 쓸 만한 건 caveman-compress

Claude Code 같은 에이전트를 매일 쓰는 사람이 진짜 신경 써야 할 건 출력이 아니라 입력이다. 출력은 매번 새로 생성되니까 한 번 짧으면 한 번 절감이고 끝이다. 그런데 입력은 세션마다 누적된다.

구체적으로 CLAUDE.md, 프로젝트 노트, 메모리 파일 같은 게 매 세션 시작 때 통째로 읽힌다. 이 파일이 길어질수록 모든 세션의 입력 토큰이 그만큼 늘어난다. 1년 단위로 누적 비용을 보면 이쪽이 더 크다.

/caveman-compress <파일> 명령어가 이 문제를 정확히 노린다. 메모리 파일을 케이브맨 톤으로 다시 써준다. 평균 46% 감소. 한 번 돌려놓으면 그 세이브가 모든 미래 세션에 적용된다. 일회성 작업으로 영구 절약이다.

비유하자면 출력 압축은 매번 영수증을 한 장씩 짧게 받는 거고, compress는 매월 자동결제되는 구독료를 줄이는 거다. 같은 1만원 절약이라도 후자가 누적 효과가 훨씬 크다.

이 외에 /caveman-commit(50자 이내 conventional commit), /caveman-review(한 줄 PR 리뷰), /caveman-stats(누적 절감 토큰 표시) 같은 부가 기능도 있다. 다 옵션이고, 핵심은 compress다.

"짧게 답하면 정확도가 오른다"는 연구가 있다

케이브맨 저자가 README에서 인용한 2026년 3월 논문이 흥미롭다. 큰 언어 모델한테 짧은 응답을 강제했더니 특정 벤치마크에서 정확도가 26점 상승했다는 결과다.

직관과 반대다. 보통 AI 도구를 쓰는 사람은 "verbose = correct" 즉 길게 설명할수록 더 신중하게 답한다고 느낀다. 그런데 길게 가다 보면 모델이 자기 답에 자기가 흔들리는 경향이 있다. 시험 볼 때 처음 고른 답을 의심하면서 자꾸 고치다가 결국 틀리는 그 현상과 비슷하다.

물론 모든 도메인에서 같은 결과는 아니다. 깊은 추론이 필요한 작업, 단계별로 검증해야 하는 디버깅 같은 건 짧은 답이 오히려 답답할 수 있다. 다만 일상적인 코딩 질문, 함수 사용법, 짧은 디버깅 같은 영역에선 짧게 받는 게 정확도 면에서도 손해가 아니라는 근거가 생긴 셈이다.

이 부분이 케이브맨의 진짜 차별화 포인트다. 단순히 비용 절감이 아니라, "verbose는 정확하다"는 사용자 직관 자체가 틀렸을 수 있다는 데이터다.

한계와 누구한테 적합한가

솔직히 다 좋은 것만은 아니다. 첫째, 87%는 best case 수치다. 평균 65%가 더 정직한 기대값이고, 코드 리뷰처럼 맥락 설명이 필요한 작업은 절감폭이 작다. 둘째, 한국어 단독 환경에선 wenyan 모드가 비실용이라 강도 단계가 사실상 세 개로 줄어든다. 셋째, 학습 목적으로 "왜 이렇게 동작하는가"를 깊게 파야 할 땐 케이브맨 톤이 답답하다. normal 한 마디로 끄면 되긴 하지만, 매번 끄고 켜는 게 귀찮다.

그래서 누구한테 적합한가. 매일 Claude Code/Cursor/Codex 굴리는 개발자, 특히 API 토큰 비용에 민감한 사람한테는 켜놓을 만하다. 무엇보다 /caveman-compress는 한 번이라도 돌려볼 가치가 있다. 메모리 파일 한 번 줄이면 그 세이브가 영구적이라 ROI가 명확하다.

반대로 학습용으로 Claude 쓰는 사람, 긴 설명을 일부러 받고 싶은 사람한텐 굳이 깔 이유가 없다. 평상시 모드로도 충분히 짧게 답하라고 부탁할 수 있다.

설치는 한 줄이다.

curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

Node 18 이상, 30초 소요. 자동으로 깔린 에이전트를 감지해서 각자의 스킬 폴더에 룰 파일을 박는다. 안 깔린 건 건너뛴다. --uninstall로 깨끗하게 제거도 된다.


참고

  • GitHub: JuliusBrussee/caveman
  • 설치 가이드: INSTALL.md
  • 인용 논문: 2026년 3월, "constraining large models to brief responses improved accuracy by 26 points" (README 인용)
반응형