본문 바로가기
ai

Promptfoo 완벽 가이드 2026 — LLM 평가·레드팀 테스팅·AI 보안 취약점 자동 탐지 완전 정복

by bamsik 2026. 3. 13.
반응형

Promptfoo란 무엇인가?

LLM(대형 언어 모델) 애플리케이션을 개발하다 보면 반드시 마주치는 질문이 있습니다. "이 프롬프트가 정말 잘 작동하는 건가?" "다른 모델로 바꾸면 더 나은 결과가 나올까?" "혹시 프롬프트 인젝션 공격에 취약하진 않을까?" 이런 질문들에 체계적으로 답해주는 도구가 바로 Promptfoo입니다.

Promptfoo는 LLM 평가(eval), 레드팀(red teaming), 취약점 스캐닝, CI/CD 자동화를 하나로 묶은 오픈소스 CLI이자 라이브러리입니다. 2026년 3월 기준 GitHub에서 11,800개 이상의 스타를 보유하고 있으며, 최신 버전은 0.121.1입니다. Discord 창업자 출신의 Ian Webster와 Michael D'Angelo가 공동 창업한 AI 보안 회사의 핵심 제품입니다.

왜 LLM 테스팅이 필요한가?

전통적인 소프트웨어 테스트는 결정론적(deterministic)입니다. 같은 입력에는 항상 같은 출력이 나옵니다. 그러나 LLM은 완전히 다릅니다.

  • 비결정적 출력: 같은 프롬프트에도 답변이 매번 조금씩 달라집니다.
  • 정답 판별의 어려움: 문자열 exact match만으로는 "좋은 답변"인지 알 수 없습니다.
  • 보안 취약점: 프롬프트 인젝션, jailbreak, 데이터 유출, tool misuse 등은 일반 정적 분석으로 찾기 어렵습니다.
  • 모델 교체 비용: GPT에서 Claude로 바꿀 때 품질이 어떻게 달라지는지 비교하기 어렵습니다.

Promptfoo의 철학은 명확합니다: "감(感)으로 프롬프트를 튜닝하지 말고, 테스트 케이스와 보안 시나리오로 LLM 시스템을 검증하자." 즉, Test-Driven LLM Development입니다.

Promptfoo 핵심 기능 4가지

1. 프롬프트 평가(Evaluation)

YAML 또는 JSON으로 테스트 케이스를 정의하면, Promptfoo가 자동으로 각 프롬프트 변형을 실행하고 결과를 채점합니다. 평가 기준(assertion)은 다양합니다: 키워드 포함 여부, 정규식 매칭, LLM-as-judge, 커스텀 Python 함수 등. 결과는 웹 UI에서 시각적으로 확인하거나 JSON/CSV로 내보낼 수 있습니다.

2. 모델 간 성능 비교

같은 프롬프트와 테스트셋으로 GPT-5.4, Claude Opus 4, Gemini 3 Pro 등 여러 모델을 동시에 비교할 수 있습니다. 응답 품질, 비용, 지연시간을 한눈에 비교해 최적의 모델을 선택할 수 있습니다. 지원 모델: OpenAI, Anthropic, Azure, Google, HuggingFace, Llama 계열, 커스텀 API까지 폭넓게 연결 가능합니다.

3. 레드팀 테스팅 — AI 보안 취약점 자동 탐지

Promptfoo의 레드팀 기능은 단순한 프롬프트 테스트를 넘어 AI 시스템의 보안 취약점을 자동으로 찾아냅니다. 다음과 같은 공격 시나리오를 자동 생성하고 테스트합니다:

  • 프롬프트 인젝션: 악의적 입력으로 AI 지시를 덮어쓰는 공격
  • Jailbreak: 안전 필터를 우회해 금지된 콘텐츠를 생성하도록 유도
  • 데이터 유출: 시스템 프롬프트나 민감 정보를 노출시키는 시도
  • Tool Misuse: 에이전트가 의도치 않은 외부 도구를 실행하도록 조작

이 기능 덕분에 Promptfoo는 단순 테스트 도구를 넘어 AI 펜테스팅 도구로도 활용됩니다.

4. CI/CD 통합

Promptfoo는 CLI 형태로 GitHub Actions, GitLab CI, Jenkins 등 모든 CI/CD 파이프라인에 통합할 수 있습니다. 코드가 변경될 때마다 자동으로 LLM 품질 테스트를 실행하고, 특정 점수 이하면 배포를 차단할 수 있습니다. AI 품질 게이트(Quality Gate)를 코드 파이프라인에 심는 셈입니다.

빠른 시작 — 5분 안에 첫 평가 실행하기

Promptfoo는 npm으로 바로 설치할 수 있습니다:

npm install -g promptfoo
# 또는 npx로 바로 실행
npx promptfoo@latest init

promptfooconfig.yaml 파일을 생성해 테스트할 프롬프트와 모델, 테스트 케이스, assertion을 정의합니다. 그 후 promptfoo eval을 실행하면 평가가 시작되고, promptfoo view로 웹 UI에서 결과를 확인할 수 있습니다.

RAG 및 에이전트 평가도 지원

Promptfoo는 단순 프롬프트 평가뿐 아니라 RAG(검색 증강 생성) 파이프라인AI 에이전트 평가도 지원합니다. 검색 품질, 컨텍스트 활용도, 다단계 에이전트의 도구 호출 정확성 등을 측정할 수 있어 에이전틱 AI 시대에 더욱 가치 있는 도구입니다.

마치며 — LLM 개발의 필수 도구

AI 애플리케이션이 프로덕션에 배포되는 사례가 급증하면서, LLM 시스템의 품질과 보안을 체계적으로 검증하는 도구의 필요성도 높아지고 있습니다. Promptfoo는 평가·비교·보안 테스팅을 하나의 도구로 통합해 개발자가 더 빠르고 안전하게 AI 시스템을 구축하도록 돕습니다. 오픈소스이고 무료로 시작할 수 있다는 점도 큰 장점입니다.


📎 참고 자료

반응형