Redis 作者 antirez 连夜搞了一个 llama.cpp 实验性 fork,把 DeepSeek v4 Flash 这种 671B 级别的超大模型,用一套极其激进的混合量化方案压进了 128GB 内存。更猛的是——整个适配过程大量借助 GPT 5.5 完成。社区已经在各种硬件上跑通,M3 Max 实测 17.5 tok/s,RTX 6000 飙到 45 tok/s。
阅读 412026-04-29 16:26 发布

Redis 作者 antirez 连夜搞了一个 llama.cpp 实验性 fork,把 DeepSeek v4 Flash 这种 671B 级别的超大模型,用一套极其激进的混合量化方案压进了 128GB 内存。更猛的是——整个适配过程大量借助 GPT 5.5 完成。社区已经在各种硬件上跑通,M3 Max 实测 17.5 tok/s,RTX 6000 飙到 45 tok/s。
暂无评论内容