본문 바로가기
AI.IT

Claude Opus 4.7 출시, SWE-bench Pro 64.3%로 코딩 1위 탈환했다

by bamsik 2026. 4. 17.
반응형

Claude Opus 4.7이 어제(4월 16일) 새로 나왔다. Anthropic이 두 달 만에 내놓은 업데이트인데, SWE-bench Pro에서 64.3%를 찍으면서 GPT-5.4와 Gemini 3.1 Pro를 둘 다 제쳤다. 단가 동결한 채 코딩 능력만 크게 끌어올린 게 골자다. 어떤 부분이 달라졌는지, 실무에서 뭐가 체감될지 정리해봤다.

벤치마크 수치, 어디가 얼마나 올라갔나

먼저 숫자부터 보자. Anthropic이 공개한 시스템 카드 기준으로 Opus 4.6 대비 변화를 정리하면 이렇다.

  • SWE-bench Verified: 80.8% → 87.6% (+6.8p) — 실제 GitHub 이슈 해결 능력
  • SWE-bench Pro: 53.4% → 64.3% (+10.9p) — 4개 언어 멀티 작업, 더 어려운 변형
  • Terminal-Bench 2.0: 65.4% → 69.4% (+4.0p) — 터미널 환경 작업
  • OSWorld-Verified: 72.7% → 78.0% (+5.3p) — 컴퓨터 사용 (GUI 조작)
  • MCP-Atlas: 75.8% → 77.3% (+1.5p) — 멀티턴 도구 호출
  • Finance Agent v1.1: 60.1% → 64.4% (+4.3p) — 금융 분석 에이전트
  • GPQA Diamond: 91.3% → 94.2% (+2.9p) — 대학원 수준 과학 추론

특히 SWE-bench Pro의 10.9포인트 점프가 인상적인데, 이건 한 언어가 아니라 여러 언어로 된 실제 프로덕션 코드베이스를 다루는 벤치마크라서 그렇다. Cursor 측에서도 자체 벤치마크 CursorBench에서 58%에서 70%로 12포인트 올랐다고 보고했고, 또 다른 파트너는 93개 코딩 작업 중 13% 더 해결했는데 그중 4개는 Opus 4.6과 Sonnet 4.6 둘 다 못 풀던 문제였다고 한다.

비전이 3배 좋아진 게 생각보다 크다

이번 업데이트에서 가장 체감 큰 변화는 사실 비전 쪽이다. 최대 입력 해상도가 2,576픽셀(약 3.75메가픽셀)까지 늘어났는데, 기존 대비 약 3배 수준이다. XBOW가 진행한 시각 정확도 테스트에선 54.5%에서 98.5%로 거의 천장까지 올랐다.

이게 왜 중요하냐면, 컴퓨터 사용 에이전트(브라우저 조작, 데스크톱 앱 자동화)가 화면을 제대로 읽으려면 고해상도 스크린샷이 필요하기 때문이다. 기존엔 빽빽한 UI나 작은 글자가 흐릿해서 에이전트가 헤맸는데, 이제 그 한계가 거의 사라졌다고 보면 된다. 실제로 OSWorld-Verified 점수가 5.3포인트 오른 것도 이 비전 개선이 한몫했을 거다.

기술 다이어그램, PDF 도표, 화학 구조식 같은 것도 더 잘 읽는다는 보고가 많다. Solve Intelligence라는 특허 분석 회사는 이 기능 덕분에 생명과학 특허 워크플로우 도구를 새로 만들고 있다고 했다.

새로 생긴 개발자 기능들

API와 Claude Code 쪽에 추가된 기능 중 알아둘 만한 것들이 있다.

  • xhigh effort 모드: 기존 high보다 더 깊게 사고하는 옵션. 어려운 디버깅이나 아키텍처 설계할 때 쓰기 좋다.
  • /ultrareview 명령: Claude Code에서 코드 리뷰를 더 꼼꼼하게 돌릴 수 있는 단축 명령.
  • Task budgets: 토큰/시간 예산을 명시적으로 설정해서 폭주하는 작업을 제한할 수 있게 됐다.
  • 1M 토큰 컨텍스트: Max·Team·Enterprise 플랜에선 자동으로 1백만 토큰 컨텍스트가 적용된다. 큰 코드베이스 통째로 읽힐 때 유용하다.
  • 백그라운드 실행: Claude Code에서 장시간 작업을 백그라운드로 돌릴 수 있게 됐다. 비동기 워크플로우용.

특히 자체 검증(self-verification) 능력이 강화됐다는 게 흥미롭다. Anthropic은 데모로 Rust로 TTS 엔진을 만든 뒤 자체 음성을 다시 음성인식기에 통과시켜 Python 레퍼런스랑 대조하는 사례를 보여줬다. 결과 보고하기 전에 스스로 검증 단계를 설계해서 돌리는 거다. 에이전트 작업의 신뢰도가 크게 올라갈 만한 개선이다.

주의해야 할 한계, 그리고 회귀

모든 영역에서 1등은 아니라는 점은 짚고 가야 한다.

먼저 BrowseComp(에이전트 웹 검색)에선 오히려 점수가 떨어졌다. 83.7%에서 79.3%로 4.4포인트 회귀했다. GPT-5.4 Pro(89.3%), Gemini 3.1 Pro(85.9%)에 비해 한참 뒤처지는 수치다. 웹 리서치 위주의 에이전트를 만든다면 이 부분이 발목을 잡을 수 있다.

그리고 지시문을 더 문자 그대로 따른다. Anthropic이 공식 안내에서 명시한 부분인데, 이전 모델들이 행간을 읽고 의도를 추측해줬다면 4.7은 프롬프트에 적힌 그대로 실행한다. 기존에 잘 돌던 자동화 프롬프트가 4.7로 바꾼 뒤 이상하게 동작한다면 이 변화 때문일 가능성이 크다. 레거시 프롬프트 라이브러리는 한 번 점검해보는 게 좋다.

사이버 보안 능력에 대해선 자동 차단 세이프가드가 새로 들어갔다. 합법적인 보안 연구(취약점 분석, 모의해킹 등) 용도로 쓰려면 별도로 Cyber Verification Program에 등록해야 한다. 더 강력한 Mythos 모델은 여전히 일반 공개 안 된 채로 제한된 기업만 접근 가능하다.

가격은 그대로, 효율은 오히려 더 좋아졌다

가격 정책이 가장 반가운 부분이다. 입력 100만 토큰당 $5, 출력 100만 토큰당 $25로 Opus 4.6과 똑같다. 성능만 올리고 비용은 안 올린 셈이다.

Hex라는 분석 회사는 평가에서 "low-effort 4.7이 medium-effort 4.6과 비슷한 품질"이라고 보고했다. 같은 작업을 더 적은 토큰으로 끝낼 수 있다는 얘기인데, 실제 청구서에선 단가 동결 이상의 효과가 날 수도 있다. Replit도 동일 품질을 더 낮은 비용으로 달성했다고 했다.

Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 모두 사용 가능하고, Pro·Max·Team·Enterprise 사용자는 Claude 앱과 Claude Code에서 바로 쓸 수 있다. 모델 ID는 claude-opus-4-7이다.

전체적으로 보면 Opus 4.7은 GPT-5.4와 Gemini 3.1 Pro가 양분하던 흐름에서 Anthropic이 코딩·도구 사용·컴퓨터 사용 영역에서 다시 선두를 가져온 업데이트다. 직접 비교 가능한 벤치마크에서 7대 4 정도로 앞서지만, 검색이나 다국어 같은 일부 영역은 여전히 경쟁사가 우위다.

실무 관점에선 코딩 에이전트를 운영하거나, 컴퓨터 사용 자동화를 만들거나, 장시간 비동기 작업을 맡기는 케이스에 가장 잘 맞는다. 반대로 웹 검색 비중이 큰 리서치 에이전트라면 Opus 4.6을 더 쓰거나 GPT-5.4 Pro를 비교해보는 게 나을 수도 있다. 단가 동결은 누구한테나 좋은 소식이고, 1M 토큰 컨텍스트 자동 적용도 큰 코드베이스 다루는 팀엔 의미가 크다.


📎 참고 자료


📌 함께 보면 좋은 글

반응형