搭载全球最大芯片的推理系统,性能飙升20倍,英伟达H100也被超越,GPU推理时代是否将迎来终结?
Cerebras,曾打造全球最大芯片公司,现推出全球最快AI推理架构——Cerebras Inference。该架构以每秒1800个token的速度处理Llama 3.1 8B,70B参数的Llama 3.1也能达到每秒450个token的响应速度。Cerebras Inference不仅性能强大,价格也十分亲民。官方API定价显示,Llama 3.1 8B每百万token仅需10美分,Llama 3 70B每百万token仅需60美分。Cerebras 推理 API 同时保证了性能、速度、准确性和成本的最佳平衡,每天提供100万个免费令牌供开发者使用。
页:
[1]