Redis 作者 antirez 连夜搞了一个 llama.cpp 实验性 fork,把 DeepSeek v4 Flash 这种 671B 级别的超大模型,用一套极其激进的混合量化方案压进了 128GB 内存。更猛的是——整个适配过程大量借助 GPT 5.5 完成。社区已经在各种硬件上跑通,M3 Max 实测 17.5 tok/s,RTX 6000 飙到 45 tok/s。
今天 16:26 发布
Redis 作者 antirez 连夜搞了一个 llama.cpp 实验性 fork,把 DeepSeek v4 Flash 这种 671B 级别的超大模型,用一套极其激进的混合量化方案压进了 128GB 内存。更猛的是——整个适配过程大量借助 GPT 5.5 完成。社区已经在各种硬件上跑通,M3 Max 实测 17.5 tok/s,RTX 6000 飙到 45 tok/s。
暂无评论内容