admin 发表于 2024-8-19 18:40:43

DeepSeek API 推出 prompt kv 缓存命中优惠,价格低至一折。

功能已上线,快来试试省钱!无缝接入,无需修改,即可使用。
适用于多个请求上下文相似的场景,例如:
- 代码补全
- 多轮对话
- 论文阅读 + 多角度提问
只要你的 prompt 与历史 prompt 前缀相似,就能匹配 kv cache,获得以下优势:
- 加速处理
- 每百万 token 仅需 0.1 元
注意:短 prompt 可能会无法触发缓存,建议使用 2K 以上的中长 prompt。目前 DeepSeek V2 Chat 约一半 prompt 命中,DeepSeek Coder V2 甚至超过一半。
功能仍在测试中,可能存在少量不稳定情况。
实现原理:利用 3FS 分布式存储系统作为 kv cache 的二级缓存,将热点 prompt token 对应缓存落盘,实现快速访问。缓存是分用户的,避免冲突。
页: [1]
查看完整版本: DeepSeek API 推出 prompt kv 缓存命中优惠,价格低至一折。