首页 资讯 娱乐 新闻 旅游 汽车 电影
开云(中国)Kaiyun·官方网站传统的压缩设施一直面对一个两难窘境:压缩数据时-开云(中国)Kaiyun·官方网站 登录入口
发布日期:2026-03-30 09:31    点击次数:186

开云(中国)Kaiyun·官方网站传统的压缩设施一直面对一个两难窘境:压缩数据时-开云(中国)Kaiyun·官方网站 登录入口

开云(中国)Kaiyun·官方网站

看过 HBO 神剧《硅谷》(Silicon Valley)的一又友,念念必都对阿谁名为 Pied Piper(魔笛手)的诬捏公司铭记心骨。

在剧中,男主角 Richard Hendricks 发明了一种「中间压缩算法」,能以极高的压缩率无损处理文献,致使因此改写了扫数互联网的次序。

其时咱们都认为这仅仅编剧的脑洞。直到 Google Research 持重发布了名为 TurboQuant 的 AI 压缩算法。

这正本是一条败兴的手艺新闻,却在外交网络上激发了病毒式传播,不到 24 小时,就得益了 1280 万次浏览。原因无他,这项手艺的设定险些即是 Pied Piper 的翻版:

在不耗损模子性能的前提下,将 AI 的「责任记念」压缩至少 6 倍。

阛阓的响应也极为实在,好意思股存储芯片板块盘中碰到抛售,好意思光科技、闪迪等头部企业股价都都收跌。

这不禁让东说念主意思意思,一项纯软件层面的算法转变,为什么会让卖硬件的先慌了神,而 Google 到底向现时的 AI 牌桌上扔了一张如何的底牌?

困在「记念黑洞」里的大模子

抛开网络热梗,TurboQuant 的出现其实不仅是为了好玩,更是为了处分一个让扫数 AI 行业头疼已久的实在瓶颈。

无人不晓,目下的 AI 模子越来越大,对显存的胃口也像无底洞一样。尤其是在推理阶段(也即是你和 AI 聊天的时候),AI 需要记着高下文信息,这部分数据被称为 KV Cache(键值缓存)。

每处理一个词,模子都要把它转成一个高维向量存进 GPU 显存。对话越长,这份「数字备忘录」扩张越快,很快就把 GPU 显存塞满。这即是为什么你的 AI 助手聊潜入会「变笨」能够奏凯报错,脑容量不够了。

更毒手的是,传统的压缩设施一直面对一个两难窘境:压缩数据时,需要特地存储「量化常数」来告诉模子若何解压。这些元数据听起来很小,加起来却能把压缩带来的收益沿路对消掉。

Google 的 TurboQuant 的出生恰是基于此。

洽商东说念主员想象了一套两阶段的数学解法。第一阶段叫 PolarQuant,把数据向量从传统的直角坐标系辅助成极坐标系,拆分红「半径」(默示大小)和「角度」(默示标的)。

这个几何变换的妙处在于:辅助后角度的分歧变得高度可展望,模子不再需要为每个数据块单独存储腾贵的归一化常数,奏凯映射到固定的圆形网格上就行了,支拨为零。

第二阶段叫 QJL(量化 Johnson-Lindenstrauss 变换),充任数学层面的纠错器。它把压缩后残留的格外投影到低维空间,再把每个格外值压缩成一个璀璨位(+1 或 -1)。

这个想象保证了 AI 在磋商「扫视力分数」时,压缩版块的死一火与高精度原版在统计道理上绝对一致。所谓扫视力分数,即是模子判断高下文里哪些词最蹙迫的要害才调。

要是说以前 AI 记札记是「一字一板抄写」,那么 TurboQuant 就像发明了一套「极简速记璀璨」:该记的一个不漏,占的空间却少了六倍。

这套设施还有一个对企业来说相配友好的特点:无需从新考验模子。你现存的开源模子,能够我方微调过的模子,奏凯套上 TurboQuant 就能跑,无谓特地的数据集,也无谓从新跑一遍考验历程。

光说不练假把式,在「大海捞针」基准测试里,让 AI 从 10 万个词里找出一句藏好的话,TurboQuant 在 Llama-3.1-8B 和 Mistral-7B 上跑出了满分调回率,同期把 KV Cache 的显存占用压缩了至少 6 倍。

在 LongBench 详尽评测套件(涵盖问答、代码生成、长文摘录)上,TurboQuant 全面追平致使跳跃了此前的最强基线设施 KIVI。

最硬核的数字来自英伟达 H100 GPU 的实测:4 位精度的 TurboQuant 在磋商扫视力逻辑上的速率,比未压缩的 32 位决议快了整整 8 倍。

论文发布后的 24 小时内,社区还是开动起初考据。

Apple Silicon MLX 框架的驰名成就者 @Prince_Canuma 把算法移植到了 Apple Silicon 的 MLX 框架,测试 Qwen3.5-35B 模子,高下文长度从 8500 到 64000 token 全障翳,每个量化等第都跑出了 100% 的精准匹配。他还发现,2.5 位的 TurboQuant 能把 KV Cache 压缩近 5 倍,准确率零耗损。

Google 的「DeepSeek 时刻」?

关于 TurboQuant 的发布,Cloudflare CEO Matthew Prince 致使将其称为 Google 的「DeepSeek 时刻」。

把时间拨回一年前,DeepSeek 以极低的老本考验出了性能惊东说念主的模子,透澈冲突了硅谷大厂对高老本才调考验出高性能 AI 的迷信。那次冲击也让扫数行业意志到:光有大模子不够,还得跑得起、跑得快。

TurboQuant 亦然这种布景下的居品。要是这项手艺能从实验室走向大范围期骗,它将带来肉眼可见的贸易价值。相同一张 H100,推理老本表面上不错奏凯打折跳跃 50%;端侧部署的门槛也会大幅裁汰,以前需要 32 位精度才调跑的大模子,放在 Mac Mini 能够土产货处事器上也能运行,还不会有质地损耗。

阛阓的响应,还是很评释问题了。TurboQuant 发布本日,好意思股存储芯片板块盘中碰到显然抛售。闪迪、好意思光科技等头部企业股价显耀收跌,存储芯片与硬件供应链关连指数单日跌幅跳跃 2%。

究其原因,要是 AI 巨头能用一套纯软件算法把显存需求砍掉六分之五,那些押注 AI 会握续豪恣耗尽高带宽显存的多头,就得从新臆想打算我方的仓位了。

而这种堤防性响应背后,也标明,以前两年因循存储股估值的中枢逻辑之一,是 AI 对显存的需求只会越来越大。TurboQuant 第一次在手艺层面持重动摇了这个假定。

天然,天然听起来很好意思好,照旧要泼一盆冷水。

一方面,历史上每次死一火普及,每每反而带动了总需求增长,经济学里叫「杰文斯悖论」。AI 跑得更低廉,可能意味着更多东说念主更每每地用它,最终耗尽的算力反而更多。是以这场「显存危险」到底会不会因此化解,还真不好说。

另一方面,TurboQuant 目下仍处于实验室阶段,字据最新音信,Google 贪图不才个月的 ICLR 2026 大会上持重展示这项手艺,届时还将同步亮相另一场顶会 AISTATS 2026。

但从论文到大范围分娩部署,中终止着工程适配、不同架构的兼容性测试、实在场景的性能考据,每一关都招架日。

▲论文地址:https://arxiv.org/abs/2504.19874

有网友奏凯开炮,这篇论文的底层洽商其实早在旧年四月就已公开,根柢谈不上横空出世,脚下的公论快活,些许有点追着旧闻起哄的道理。

在他看来,要是存储股因为一篇算法论文而大跌,恰巧透露了阛阓里有些许东说念主根柢没搞明晰这件事的鸿沟,并把这波响应比作「丰田出了新混动引擎,石油就该崩盘」。

更蹙迫的是,TurboQuant 处分的仅仅推理(Inference)阶段的显存瓶颈,考验阶段的显存耗尽依然是另一座大山。念念重新考验一个主流量级的大模子,需要的算力资源依然是天文数字。

在《硅谷》里,Pied Piper 的压缩算法最终改变了扫数互联网。而在践诺中,TurboQuant 的贪心没那么大,主张仅仅让 AI 在有限的物理空间里难忘更多、算得更快、跑得更低廉。

践诺终究不是好莱坞脚本开云(中国)Kaiyun·官方网站,不必透澈改变互联网,能和 AI 聊得更长、不再半路报错,还是是好多东说念主念念要的了。



Powered by 开云(中国)Kaiyun·官方网站 登录入口 @2013-2022 RSS地图 HTML地图