NVIDIA открыла исходный код KVzap — SOTA метод усечения KV-кэша с почти без потерь сжатием 2–4×
По мере того как длины контекста достигают десятков и сотен тысяч токенов, кеш ключей и значений (key‑value cache) в декодерах трансформеров становится ключевым узким местом...











