一条推文，炸开了本地大模型圈

Redis 之父深夜放大招：DeepSeek v4 Flash 被硬塞进 llama.cpp，128GB 内存就能跑！

mp.weixin.qq.com

Redis 作者 antirez 连夜搞了一个 llama.cpp 实验性 fork，把 DeepSeek v4 Flash 这种 671B 级别的超大模型，用一套极其激进的混合量化方案压进了 128GB 内存。更猛的是——整个适配过程大量借助 GPT 5.5 完成。社区已经在各种硬件上跑通，M3 Max 实测 17.5 tok/s，RTX 6000 飙到 45 tok/s。

今天 16:26 发布

梦晨作者

这家伙很懒，什么都没有写...

评论抢沙发

请登录后发表评论

登录注册

暂无评论内容