Google TurboQuant, AI 메모리 6배 줄이는 거 어떻게 가능한 건지 알아봤다

지난 3월 24일에 Google Research가 TurboQuant라는 걸 발표했다. ICLR 2026에 게재 예정인 논문이고, Ars Technica에서 꽤 크게 다뤘다.

핵심만 먼저 말하면: LLM 추론 시 메모리를 최대 6배 줄이면서 품질 손실이 없다는 거다. 처음엔 "또 과장이겠지" 싶었는데, 내용 파보니까 꽤 탄탄한 수학이 뒤에 있었다.

KV 캐시가 뭔데 왜 중요한가

LLM이 텍스트를 생성할 때 이전 토큰들의 정보를 기억해야 한다. 이걸 Key-Value 캐시(KV 캐시)라고 부른다. 문맥이 길어질수록 KV 캐시도 선형으로 커진다.

예를 들어 32K 토큰짜리 대화를 처리하는 모델이면 KV 캐시만 수십 GB가 필요할 수 있다. 이게 LLM 추론 비용의 핵심 병목이다. 더 긴 컨텍스트를 처리하려면 더 비싼 GPU가 필요하고, 클라우드 API 비용도 올라간다.

KV 캐시 압축 시도는 전에도 있었다. 보통 16비트 정밀도를 4비트나 8비트로 줄이는 양자화(quantization)다. 근데 이러면 품질이 떨어진다. 숫자를 거칠게 표현할수록 정보가 손실되니까.

TurboQuant는 다른 접근을 했다. 단순히 비트 수를 줄이는 게 아니라, 정보가 어디에 얼마나 집중돼 있는지 분석해서 중요한 부분에 더 많은 비트를 할당한다. 이걸 벡터 양자화(vector quantization)라고 부른다.

Google Research 블로그에서 설명한 핵심은 세 가지다:

1. QJL (Quantized Johnson-Lindenstrauss)
고차원 벡터를 저차원으로 투영할 때 거리 관계를 보존하는 방법이다. 정보를 압축하면서 원래 벡터 간의 유사도 관계를 유지한다.

2. PolarQuant
KV 벡터의 방향(angle) 정보를 분리해서 압축한다. 크기보다 방향 정보가 어텐션 계산에 더 중요하다는 걸 이용한 방법이다.

3. 정보 이론적 최적화
TurboQuant.net에 올라온 설명을 보면, "평범한 영역과 중요한 영역에 정보 밀도를 재분배"한다고 표현했다. 모든 곳을 똑같이 압축하는 게 아니라, 필요한 곳에 정밀도를 집중시키는 방식이다.

Ars Technica가 정리한 수치를 보면:

재학습 없이 기존 모델에 바로 적용 가능하다는 것도 중요하다. 새 모델을 처음부터 훈련시키는 게 아니라 추론 단계에서 적용된다.

솔직히 당장 내가 할 수 있는 건 없다. Google이 공개 연구로 발표했지만, 실제 서비스에 적용되려면 시간이 걸린다. Gemini API나 Google Cloud AI에 먼저 적용될 것 같고, 오픈소스 LLM에는 커뮤니티 구현이 나오겠지.

장기적으로 의미 있는 건 이거다: 더 긴 컨텍스트를 더 싸게 처리할 수 있게 된다. 지금 128K 컨텍스트가 비싸서 못 쓰는 경우가 있는데, 이 기술이 상용화되면 비용 장벽이 낮아진다.

한 가지 아쉬운 점은 구현 코드가 아직 완전 공개된 게 아니라는 거다. ICLR 2026 발표 후에 더 많은 정보가 나올 것 같다.

블렌더 없이도 3D 된다? After Effects 2026이 바꾼 것들 (0)	2026.03.30
GitHub Copilot CLI가 정식 출시됐다, 터미널에서 AI 쓰는 방식이 달라졌다 (0)	2026.03.30
Microsoft가 Anthropic이랑 같이 만든 Copilot Cowork, 뭐가 다른 건지 정리해봤다 (0)	2026.03.30
AI가 내 편만 드는 이유, 스탠포드가 증명했다 (0)	2026.03.30
Sora 대신 뭘 써야 할까 — 목적별 AI 영상 툴 선택 가이드 (0)	2026.03.29