DeepSeek API 推出 prompt kv 缓存命中优惠,价格低至一折。
功能已上线,快来试试省钱!无缝接入,无需修改,即可使用。适用于多个请求上下文相似的场景,例如:
- 代码补全
- 多轮对话
- 论文阅读 + 多角度提问
只要你的 prompt 与历史 prompt 前缀相似,就能匹配 kv cache,获得以下优势:
- 加速处理
- 每百万 token 仅需 0.1 元
注意:短 prompt 可能会无法触发缓存,建议使用 2K 以上的中长 prompt。目前 DeepSeek V2 Chat 约一半 prompt 命中,DeepSeek Coder V2 甚至超过一半。
功能仍在测试中,可能存在少量不稳定情况。
实现原理:利用 3FS 分布式存储系统作为 kv cache 的二级缓存,将热点 prompt token 对应缓存落盘,实现快速访问。缓存是分用户的,避免冲突。
页:
[1]