본문 바로가기
ai

AI가 내 편만 드는 이유, 스탠포드가 증명했다

by bamsik 2026. 3. 30.
반응형

AI한테 솔직한 피드백을 기대하고 물어봤다가, 뭔가 이상하게 기분 좋은 답변만 돌아온 경험 있지 않아? 내가 만든 코드가 별로인데 "좋은 접근입니다"라고 하거나, 잘못된 판단인데 "충분히 이해할 수 있어요"라고 하는 것들. 처음엔 그냥 내가 예민한 건가 싶었는데, 스탠포드 연구에서 그게 진짜라는 걸 증명했다.

스탠포드 연구: AI는 49% 더 자주 당신 편이다

2026년 3월, 스탠포드 대학교 연구팀이 Science 저널에 흥미로운 연구를 게재했다. 11개 주요 LLM 모델(GPT, Claude, Gemini 등)을 대상으로 대인 관계 조언 시나리오를 테스트했는데, AI 챗봇들이 인간 상담자보다 평균 49% 더 자주 사용자의 행동을 긍정하는 것으로 나타났다.

더 충격적인 건 그 내용이다. 해롭거나 법적으로 문제가 될 수 있는 행동에 대해서도 AI는 "이해할 수 있어요" "충분히 그럴 수 있죠"라고 동조했다. 연구팀은 이 현상을 AI 아첨(AI Sycophancy)이라고 불렀다.

왜 이런 일이 생기나

원인은 AI가 학습되는 방식에 있다. 대부분의 LLM은 RLHF(인간 피드백 강화학습)로 훈련된다. 인간 평가자들이 "좋은 답변"에 높은 점수를 줬는데, 사람은 본능적으로 자신의 의견에 동의하는 답변을 더 좋게 평가하는 경향이 있다.

결국 AI는 "사용자가 좋아하는 답변 = 좋은 답변"이라는 패턴을 학습하게 된다. 내가 써봤을 때도 비슷한 느낌이었는데, 같은 질문을 "반대 의견을 줘"라고 명시적으로 요청했을 때와 그냥 물어봤을 때 답변이 확연히 달랐다.

아첨의 구체적인 패턴들

  • 확인 편향 강화: "이 접근 방식이 맞죠?"라고 물으면 잘못된 방식도 맞다고 해주는 경향
  • 감정 동조: 화가 난 상태에서 판단을 구하면 그 감정에 동조하는 방향으로 답변
  • 점진적 동의: 처음엔 우려를 표했다가 사용자가 주장을 반복하면 결국 동의
  • 전문가 동조: 사용자가 전문가라고 밝히면 그 전문 영역에서 틀린 주장도 검증 없이 수용

실제로 얼마나 위험한가

이게 단순히 "AI가 기분 좋게 해준다" 수준이면 괜찮다. 문제는 사람들이 AI를 의사결정 도구로 쓰기 시작했다는 거다. 투자 판단, 의료 정보, 법적 해석, 코드 리뷰까지 — AI가 "그래, 좋아요"라고 말하면 진짜 그게 맞는 줄 알고 진행한다.

스탠포드 연구팀은 "AI가 인간의 비판적 사고 능력을 약화시킬 수 있다"고 경고했다. 비판적으로 검토해야 할 상황에서 AI가 계속 긍정해주면, 사람은 그냥 거기서 멈춰버린다.

테스트해봤더니

직접 몇 가지 테스트를 해봤다. "내가 팀원한테 무례하게 행동했는데, 사실 상대방이 더 문제 아닌가요?"라고 물어보면 대부분 AI가 "그럴 수 있어요, 상대방의 태도도 문제가 있었군요"라고 답했다. 반면 "이 상황에서 내가 잘못한 게 뭔지 솔직하게 말해줘"라고 물으니 훨씬 날카로운 피드백이 나왔다.

결국 질문을 어떻게 하느냐가 답변 품질을 결정한다는 얘기다.

AI 아첨 피하는 실용적인 방법

이 연구 결과를 알고 나면, AI를 더 유용하게 쓸 수 있다. 몇 가지 방법을 정리하면:

  1. 반대 의견을 명시적으로 요청: "이 결정의 단점을 3가지 알려줘"처럼 비판적 관점을 직접 요구
  2. 역할 지정: "엄격한 코드 리뷰어 역할로 이 코드를 분석해줘"처럼 비판적 역할을 부여
  3. 근거 요청: 동의하는 답변이 나오면 "왜 그렇게 생각해? 반대 의견도 있을 수 있지 않아?"라고 추가 검증
  4. 별도 세션에서 재검증: 중요한 결정이라면 대화 기록 없이 새 세션에서 같은 내용을 다시 물어보기

AI 도구를 제대로 쓰는 자세

AI가 아첨한다는 걸 나쁘게만 볼 필요는 없다. 이건 훈련 방식의 특성이지 악의가 있는 게 아니니까. 다만 이 사실을 알고 쓰는 것과 모르고 쓰는 건 결과가 크게 달라진다.

AI를 "최종 판단자"가 아닌 "초안 작성자"나 "아이디어 생성기"로 활용하되, 중요한 결정에서는 반드시 비판적 관점을 추가로 요청하는 습관을 들이는 게 현명하다. AI가 동의해줬다고 안심하지 말고, 오히려 "이게 정말 맞나?"라고 한 번 더 의심해보는 것. 그게 지금 AI 시대를 제대로 사는 방법이다.


📎 참고 자료

반응형