admin 发表于 5 天前

Gemini exp 1114 LiveBench排名已公布。

Gemini 1.5 Pro的逻辑能力提升明显,但LiveBench跑分表现一般,略高于40分,逊于Claude 3.5和O1。LiveBench的语言理解评测与Gemini 1.5 Pro的长文本总结能力实际体验不符,我认为其长文本总结能力是其一大优势。
页: [1]
查看完整版本: Gemini exp 1114 LiveBench排名已公布。