아티클

TurboQuant 의 불편한 진실

어니언킴 2026. 3. 31. 14:56

AI 연산의 메모리 사용량을 1/6 까지 줄여 삼전과 하이닉스의 주가를 폭락시킨 터보퀀트의 불편한 진실을 몇가지 폭로한다.

 

  • KV Cache Quantization 는 그리 새로운 기술은 아니다.
    • llama.cpp, vLLM 등에서 이미 KV Cache 8bit quantization이 활발하게 쓰이고 있다.
    • 4bit 또한 학계에서 꾸준히 연구가 되어 왔다.
    • TurboQuant 가 주장하는 6-8 배 효율성은 32bit KV Cache 를 기준으로 측정한 것이다.
  • 최신 기술인 것 같지만 작년 이맘때 쯤(25년 4월)에 공개된 논문이다. 최근 들어 다시 화제가 된 것은, 구글 블로그를 통해 소개되었기 때문이다.
  • 아직 공개된 구현체가 없다. 커뮤니티 중심으로 성능이 검증되지 않았다는 말이다.
  • 메모리 효율성은 KV Cache 영역에 한정될 뿐, 모델을 구동할 때 가장 먼저 들어가는 weight 로딩 메모리까지 줄여주는 것은 아니다.
    • MINMAX 모델을 예시로 들면 weight 구동에 220 GB 가 필요하고 context 길이가 100k token 만큼 길어질 수록 24GB 가 추가적으로 필요하다. (100K 면 해리포터 1권의 길이 정도 된다). TurboQuant가 줄여주는 것은 이 중 context가 사용하는 24GB/100K token 부분이지, 고정적으로 필요한 220GB의 weight 메모리와는 무관하다.
    • https://github.com/MiniMax-AI/MiniMax-M2.5/blob/main/docs/vllm_deploy_guide.md

 

정리하자면 이렇다.

 

구글이 제시한 3bit 수준으로 KV cache 를 압축해도 정보 손실이 거의 없다는 구글의 주장은 확실히 놀라운 부분이다.

다만 메모리 사용량의 1/6 이상 감소한다는 주장은 MSG 가 섞여있는 것이

 

1) weight를 로드하는 데 고정적으로 들어가는 메모리는 줄어들지 않고,

2) context 메모리 절감 효과 역시 quantization이 적용되지 않은 32bit float 기준과 비교한 결과이기 때문이다.

 

논문이 나온지도 꽤 시간이 지났고 아직 구현체도 없음에도 많은 이들이 관심을 가지는 이유는 “구글”이 “구글 블로그” 에 올렸기 때문이 아닐까 싶다. 기술 그 자체의 완성도와는 별개로, 구글이라는 이름이 주는 신뢰감이 사람들에게 공신력 있는 학회나 저널 이상으로 강한 hype를 만들어내는 듯하다.

 

여담이지만, 메모리가 1/6이 아니라 1/100 이 준다고 하더라도 삼전과 하닉을 팔아 치우는 이유가 되는것은 의문이다. 90년대 486 컴퓨터보다 내 아이폰이 연산량이 수천배 좋아졌음에도, 반도체와 각종 컴퓨팅 기기의 수요가 줄어든 것은 아님을 보면 더욱 그러하다.