Devin AI 써봤는데, $20에 완전 자율이라더니 실제론 달랐다

Devin AI가 월 $20짜리 플랜을 내놓았다. "완전 자율 AI 소프트웨어 엔지니어"를 이제 개인 개발자도 쓸 수 있다는 얘기였다. 바로 결제했고, 며칠 동안 실제 프로젝트에 붙여봤다.

$20에 쓸 수 있는 완전 자율 AI 코딩 에이전트가 생겼다

Devin은 Cognition Labs가 만든 AI 소프트웨어 엔지니어다. 2024년 3월에 처음 나왔을 땐 기업 전용이라 최소 월 $500을 내야 했는데, Devin 2.0부터 $20짜리 Core 플랜이 생기면서 개인 개발자도 접근할 수 있게 됐다. Copilot처럼 내 코드를 옆에서 채워주는 방식이 아니라, 버그 티켓을 던져주면 혼자 원인을 찾고 수정하고 테스트까지 돌려서 PR을 올리는 걸 한다.

처음 들었을 때 솔직히 좀 설렜다. Copilot처럼 내가 타이핑하는 걸 도와주는 게 아니라, 내가 다른 일 하는 동안 혼자 작업한다는 게 포인트였으니까. Cognition Labs 측에서는 병렬로 최대 10개까지 동시에 작업시킬 수 있다고도 했다.

실제로 써봤더니, SWE-Bench 13.86%가 의미하는 것

Devin의 공식 벤치마크 성적은 SWE-Bench 기준 13.86%다. 숫자만 보면 낮아 보이지만, 이 벤치마크에서 다른 도구들이 어느 정도인지 감이 없으면 판단하기 어렵다. 근데 이걸 뒤집어 읽으면, 복잡한 실제 작업의 약 86%는 자율 해결이 안 된다는 얘기다.

명확한 작업은 됐다

실제 테스트 결과를 보면, 재현 가능한 버그 수정은 78% 성공, 잘 정의된 소기능 구현은 65%, 테스트 작성은 82%였다. 반복적인 코드 마이그레이션이나 명확한 스펙이 있는 작업에서는 충분히 쓸 만했다.

직접 써봤을 때도 비슷한 느낌이었다. Node.js API에서 페이지네이션 로직 버그를 넘겼더니 15분 만에 원인 파악하고 PR을 올려줬다. 근데 이건 재현 조건이 명확한 케이스였다.

모호하거나 복잡하면 달랐다

문제는 작업이 조금만 모호해지면 성공률이 25~35%로 뚝 떨어진다는 거다. "새로운 대시보드 기능 추가"처럼 스펙이 열린 요청을 넣으면, 잘못된 방향으로 20분 이상 달리다가 엉뚱한 구현을 내놓기도 했다. Cursor는 내가 실시간으로 코드 변경을 보면서 즉시 방향을 잡아줄 수 있는데, Devin은 비동기로 돌아가니까 중간에 잘못 가고 있어도 직접 확인하지 않으면 모른다.

실제 프로젝트 47개 작업을 돌린 테스트에서, 72%는 작은 수정으로 머지 가능했고 11%는 직접 처음부터 다시 짜는 게 더 빠른 상황이었다고 한다.

$20 플랜인데, 실제 비용이 예상보다 많이 나왔다

Devin의 Core 플랜은 월 $20 기본료에 ACU(Agent Compute Unit)라는 단위로 추가 과금된다. 1 ACU가 대략 Devin이 15분 일하는 것에 해당하고, Core 플랜에는 150 ACU가 포함돼 있다. 여기서 150을 15분으로 곱하면 약 37.5시간이니까 꽤 많아 보인다.

근데 실제 사용자들의 후기를 보면, ACU 소비가 마케팅 예측의 3~5배로 나온다는 게 공통적이다. 간단한 버그 수정 하나에 5~8 ACU가 들기도 하고, 소기능 구현은 10~20 ACU가 쉽게 나간다. 한 후기에서는 "$20 Core 플랜의 150 ACU가 3일 만에 소진됐다"고 했다. 실패하면 ACU는 그냥 쌓인다. 재시도하면 또 쌓인다.

반면 Cursor는 월 $20에 한 달 내내 쓸 수 있고, GitHub Copilot은 $10에 고정이다. Devin은 "$20부터 시작"이지만 실제로는 월 $200~$800이 청구되는 경우도 있다. 이게 좀 아쉬운 부분이다. 월 청구서가 얼마 나올지 예측하기가 어렵다.

Trustpilot 점수도 3.0/5로, GitHub Copilot(G2 4.5/5)이나 Cursor(G2 4.7/5)보다 낮다. 부정적인 리뷰에서 반복적으로 나오는 내용이 "예상보다 ACU가 많이 들었다"였다.

그래도 이런 상황에서는 쓸 만하다

10개 프로젝트 테스트에서 Devin은 평균 7.6/10을 받았다. "코드는 돌아가지만 프로덕션에 바로 올리기 전에 코드 리뷰가 필요한 수준" — 주니어 개발자 한 명을 고용한 것처럼 대하면 기대치가 맞아들어간다는 평이었다.

써봤을 때 유용하다고 느낀 상황:

잘 정의된 버그 티켓이 쌓여 있을 때 병렬로 처리
레거시 코드 마이그레이션 같은 반복적이고 명확한 작업
테스트 코드 자동 작성
CI/CD 파이프라인 구성처럼 스펙이 뚜렷한 작업

반면 이런 상황에는 맞지 않았다:

스펙이 모호한 새 기능 구현
마이크로서비스나 복잡한 아키텍처 전체 설계
ACU 예산이 고정돼야 하는 개인 개발자나 소규모 팀
실시간으로 변경을 확인하면서 방향을 잡아야 하는 작업

자율 AI 코딩 에이전트를 $20부터 쓸 수 있게 됐다는 건 분명히 의미 있는 변화다. 적합한 작업에 쓰면 시간을 아낄 수 있다. 근데 "완전 자율"이라는 말만 보고 복잡한 걸 맡기면, ACU만 줄고 결국 직접 다시 짜는 일이 생긴다. 아직은 스펙을 제대로 잡아주는 인간이 옆에 있어야 제대로 돌아가는 도구다.

📎 참고 자료

📌 함께 보면 좋은 글

저작자표시 비영리 변경금지 (새창열림)

'AI.IT' 카테고리의 다른 글

Claude Code 멀티세션 생겼길래 들어가봤는데, 진짜 핵심은 Routines였다 (1)	2026.04.21
Claude Advisor 툴 공개, Opus로 Haiku 성능 2배 올린 API 패턴 (1)	2026.04.20
Claude Design 출시, 대화로 프로토타입 만드는 Anthropic의 새 도구 (1)	2026.04.19
GitHub Copilot Free 한 달 쓰면 충분할 줄 알았다, 실제론 달랐다 (0)	2026.04.19
LLM 성능 평가, 스탠퍼드 2026 리포트가 불편한 진실 꺼냈다 (0)	2026.04.18

KnightK

Devin AI 써봤는데, $20에 완전 자율이라더니 실제론 달랐다

$20에 쓸 수 있는 완전 자율 AI 코딩 에이전트가 생겼다