开云(中国)Kaiyun·官方网站传统的压缩设施一直面对一个两难窘境：压缩数据时-开云(中国)Kaiyun·官方网站登录入口

发布日期：2026-03-30 09:31 点击次数：190

开云(中国)Kaiyun·官方网站

看过 HBO 神剧《硅谷》（Silicon Valley）的一又友，念念必都对阿谁名为 Pied Piper（魔笛手）的诬捏公司铭记心骨。

在剧中，男主角 Richard Hendricks 发明了一种「中间压缩算法」，能以极高的压缩率无损处理文献，致使因此改写了扫数互联网的次序。

其时咱们都认为这仅仅编剧的脑洞。直到 Google Research 持重发布了名为 TurboQuant 的 AI 压缩算法。

这正本是一条败兴的手艺新闻，却在外交网络上激发了病毒式传播，不到 24 小时，就得益了 1280 万次浏览。原因无他，这项手艺的设定险些即是 Pied Piper 的翻版：

在不耗损模子性能的前提下，将 AI 的「责任记念」压缩至少 6 倍。

阛阓的响应也极为实在，好意思股存储芯片板块盘中碰到抛售，好意思光科技、闪迪等头部企业股价都都收跌。

这不禁让东说念主意思意思，一项纯软件层面的算法转变，为什么会让卖硬件的先慌了神，而 Google 到底向现时的 AI 牌桌上扔了一张如何的底牌？

困在「记念黑洞」里的大模子

抛开网络热梗，TurboQuant 的出现其实不仅是为了好玩，更是为了处分一个让扫数 AI 行业头疼已久的实在瓶颈。

无人不晓，目下的 AI 模子越来越大，对显存的胃口也像无底洞一样。尤其是在推理阶段（也即是你和 AI 聊天的时候），AI 需要记着高下文信息，这部分数据被称为 KV Cache（键值缓存）。

每处理一个词，模子都要把它转成一个高维向量存进 GPU 显存。对话越长，这份「数字备忘录」扩张越快，很快就把 GPU 显存塞满。这即是为什么你的 AI 助手聊潜入会「变笨」能够奏凯报错，脑容量不够了。

更毒手的是，传统的压缩设施一直面对一个两难窘境：压缩数据时，需要特地存储「量化常数」来告诉模子若何解压。这些元数据听起来很小，加起来却能把压缩带来的收益沿路对消掉。

Google 的 TurboQuant 的出生恰是基于此。

洽商东说念主员想象了一套两阶段的数学解法。第一阶段叫 PolarQuant，把数据向量从传统的直角坐标系辅助成极坐标系，拆分红「半径」（默示大小）和「角度」（默示标的）。

这个几何变换的妙处在于：辅助后角度的分歧变得高度可展望，模子不再需要为每个数据块单独存储腾贵的归一化常数，奏凯映射到固定的圆形网格上就行了，支拨为零。

第二阶段叫 QJL（量化 Johnson-Lindenstrauss 变换），充任数学层面的纠错器。它把压缩后残留的格外投影到低维空间，再把每个格外值压缩成一个璀璨位（+1 或 -1）。

这个想象保证了 AI 在磋商「扫视力分数」时，压缩版块的死一火与高精度原版在统计道理上绝对一致。所谓扫视力分数，即是模子判断高下文里哪些词最蹙迫的要害才调。

要是说以前 AI 记札记是「一字一板抄写」，那么 TurboQuant 就像发明了一套「极简速记璀璨」：该记的一个不漏，占的空间却少了六倍。

这套设施还有一个对企业来说相配友好的特点：无需从新考验模子。你现存的开源模子，能够我方微调过的模子，奏凯套上 TurboQuant 就能跑，无谓特地的数据集，也无谓从新跑一遍考验历程。

光说不练假把式，在「大海捞针」基准测试里，让 AI 从 10 万个词里找出一句藏好的话，TurboQuant 在 Llama-3.1-8B 和 Mistral-7B 上跑出了满分调回率，同期把 KV Cache 的显存占用压缩了至少 6 倍。

在 LongBench 详尽评测套件（涵盖问答、代码生成、长文摘录）上，TurboQuant 全面追平致使跳跃了此前的最强基线设施 KIVI。

最硬核的数字来自英伟达 H100 GPU 的实测：4 位精度的 TurboQuant 在磋商扫视力逻辑上的速率，比未压缩的 32 位决议快了整整 8 倍。

论文发布后的 24 小时内，社区还是开动起初考据。

Apple Silicon MLX 框架的驰名成就者 @Prince_Canuma 把算法移植到了 Apple Silicon 的 MLX 框架，测试 Qwen3.5-35B 模子，高下文长度从 8500 到 64000 token 全障翳，每个量化等第都跑出了 100% 的精准匹配。他还发现，2.5 位的 TurboQuant 能把 KV Cache 压缩近 5 倍，准确率零耗损。

Google 的「DeepSeek 时刻」？

关于 TurboQuant 的发布，Cloudflare CEO Matthew Prince 致使将其称为 Google 的「DeepSeek 时刻」。

把时间拨回一年前，DeepSeek 以极低的老本考验出了性能惊东说念主的模子，透澈冲突了硅谷大厂对高老本才调考验出高性能 AI 的迷信。那次冲击也让扫数行业意志到：光有大模子不够，还得跑得起、跑得快。

TurboQuant 亦然这种布景下的居品。要是这项手艺能从实验室走向大范围期骗，它将带来肉眼可见的贸易价值。相同一张 H100，推理老本表面上不错奏凯打折跳跃 50%；端侧部署的门槛也会大幅裁汰，以前需要 32 位精度才调跑的大模子，放在 Mac Mini 能够土产货处事器上也能运行，还不会有质地损耗。

阛阓的响应，还是很评释问题了。TurboQuant 发布本日，好意思股存储芯片板块盘中碰到显然抛售。闪迪、好意思光科技等头部企业股价显耀收跌，存储芯片与硬件供应链关连指数单日跌幅跳跃 2%。

究其原因，要是 AI 巨头能用一套纯软件算法把显存需求砍掉六分之五，那些押注 AI 会握续豪恣耗尽高带宽显存的多头，就得从新臆想打算我方的仓位了。

而这种堤防性响应背后，也标明，以前两年因循存储股估值的中枢逻辑之一，是 AI 对显存的需求只会越来越大。TurboQuant 第一次在手艺层面持重动摇了这个假定。

天然，天然听起来很好意思好，照旧要泼一盆冷水。

一方面，历史上每次死一火普及，每每反而带动了总需求增长，经济学里叫「杰文斯悖论」。AI 跑得更低廉，可能意味着更多东说念主更每每地用它，最终耗尽的算力反而更多。是以这场「显存危险」到底会不会因此化解，还真不好说。

另一方面，TurboQuant 目下仍处于实验室阶段，字据最新音信，Google 贪图不才个月的 ICLR 2026 大会上持重展示这项手艺，届时还将同步亮相另一场顶会 AISTATS 2026。

但从论文到大范围分娩部署，中终止着工程适配、不同架构的兼容性测试、实在场景的性能考据，每一关都招架日。

▲论文地址：https://arxiv.org/abs/2504.19874

有网友奏凯开炮，这篇论文的底层洽商其实早在旧年四月就已公开，根柢谈不上横空出世，脚下的公论快活，些许有点追着旧闻起哄的道理。

在他看来，要是存储股因为一篇算法论文而大跌，恰巧透露了阛阓里有些许东说念主根柢没搞明晰这件事的鸿沟，并把这波响应比作「丰田出了新混动引擎，石油就该崩盘」。

更蹙迫的是，TurboQuant 处分的仅仅推理（Inference）阶段的显存瓶颈，考验阶段的显存耗尽依然是另一座大山。念念重新考验一个主流量级的大模子，需要的算力资源依然是天文数字。

在《硅谷》里，Pied Piper 的压缩算法最终改变了扫数互联网。而在践诺中，TurboQuant 的贪心没那么大，主张仅仅让 AI 在有限的物理空间里难忘更多、算得更快、跑得更低廉。

践诺终究不是好莱坞脚本开云(中国)Kaiyun·官方网站，不必透澈改变互联网，能和 AI 聊得更长、不再半路报错，还是是好多东说念主念念要的了。