
Grok 4.20, 이제 그냥 넘기기가 어렵다
솔직히 말하면, Grok은 그냥 "일론 머스크가 만든 것" 정도로만 생각하고 있었다. GPT나 Claude 쓰면 되지, 굳이 라는 생각. 그런데 4.20 나오고 나서 분위기가 좀 달라졌다는 얘기가 계속 들려서 직접 찾아봤다.

Grok 4.20이 뭐가 다른가
xAI가 2026년 2월 17일 퍼블릭 베타로 먼저 공개했고, 3월 초에 베타 2 버전이 나오면서 세부 개선이 됐다. 마케팅 문구보다는 실제 변화를 보면 이렇다.

4-에이전트 협업 시스템
새 아키텍처의 핵심은 단일 모델이 아니라 에이전트 4개가 협력하는 구조다. 복잡한 질문에 대해 여러 에이전트가 분업해서 각자 처리하고 결과를 합친다. 긴 코드 리뷰나 다단계 분석에서 일관성이 높아졌다는 평이 많다.

2M 토큰 컨텍스트 윈도우
2백만 토큰이면 긴 코드베이스나 문서 전체를 한 번에 넣을 수 있는 수준이다. Claude의 200K보다 열 배 넘는 수치인데, 실제로 전부 활용될 때의 품질이 어느 수준인지는 아직 검증 중인 분위기다.
Capability Hallucination 개선
베타 2에서 xAI가 직접 "capability hallucination" 수정이라고 표현했다. 모델이 자기 능력을 과장하거나 없는 기능을 있다고 주장하는 문제였는데, 이게 줄었다고 한다. 작은 것처럼 보이지만 실무에서 쓸 때 신뢰도에 직결되는 부분이다.
가격 책정
API 기준으로 입력 $2/M 토큰, 출력 $6/M 토큰이다. GPT-5.4나 Claude Sonnet 4.6과 비교하면 중간 정도 수준이다. 월 400만 토큰 한도가 있어서 대규모로 쓰려면 상위 플랜이 필요하다.
실시간 웹 접근이 아직 강점
다른 모델들도 웹 검색 기능을 붙이고 있지만, Grok은 X(트위터) 데이터에 실시간으로 접근할 수 있다는 게 독특하다. 트렌드 파악이나 최신 소셜 반응 분석에서는 다른 모델들이 따라오기 어려운 영역이다. 뉴스나 이슈를 빠르게 파악해야 할 때 쓸 이유가 생긴다.
아직 아쉬운 점
한국어 처리는 여전히 GPT나 Claude에 비해 한 단계 아래라는 느낌이다. 영어 기반 작업에서는 경쟁력이 생겼지만, 한국어로 긴 문서를 다루거나 뉘앙스가 중요한 작업에서는 아직 차이가 난다. 그리고 2M 토큰이라는 숫자는 인상적이지만, 컨텍스트 후반부로 갈수록 품질이 어떻게 유지되는지 더 검증이 필요하다.
결국 어디다 쓰나
코딩 작업에서 복잡한 멀티스텝 문제를 다룰 때, 트위터/X 기반 트렌드 리서치할 때, 그리고 긴 문서를 한 번에 처리해야 할 때. 이 세 가지 케이스라면 한 번 써볼 만하다. GPT나 Claude를 완전히 대체하는 것보다는, 용도에 따라 추가 옵션으로 갖고 있을 이유가 생긴 정도다.
모든 걸 한 모델로 해결하려는 시대는 이미 지났다. 각자 강점이 있고, 그걸 알고 쓰는 게 요즘 방식이다.
📎 참고 자료
'ai' 카테고리의 다른 글
| Figma vs Framer, 2026년에도 둘 다 써야 하나 (0) | 2026.03.29 |
|---|---|
| OpenAI가 AI를 오작동시켜 보상 받아가세요 라고 했다 (0) | 2026.03.29 |
| Claude가 갑자기 내 컴퓨터를 쓰기 시작했다 (0) | 2026.03.29 |
| Runway vs 나머지 — 뭘 고를지 고민된다면 (0) | 2026.03.28 |
| Astro, Solid.js, Svelte — React 말고 다른 선택지를 진지하게 볼 때가 됐다 (0) | 2026.03.28 |