大模型实现“8小时工作制” ！智谱GLM-5.1大幅提升长程任务能力

来源：未知作者：佚名发布时间：2026-04-10 10:22:03

《科创板日报》4月10日讯（记者李明明）智谱发布其迄今最智能的模型。

近日，智谱发布并开源新一代旗舰模型GLM-5.1。据介绍，其是唯一达到8小时级持续工作的开源模型，在最接近真实软件开发的SWE-bench Pro基准测试中，GLM-5.1实现国产模型首次超越Opus 4.6。

OpenRouter显示，伴随此次发布，智谱GLM再度提价10%。

《科创板日报》记者从相关方获悉，与过去一年行业主旋律“降价”截然相反，智谱本次提价，编码场景定价首次追平海外头部厂商Anthropic。这也寓示着国产大模型从价格战、低价换量转向性能溢价。

实测GLM-5.1

关于GLM-5.1的智能水平，智谱团队告诉《科创板日报》记者，GLM-5.1提高了代码能力，在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同，它能够在一次任务中独立、持续工作超过8小时，期间自主规划、执行、自我进化，最终交付完整的工程级成果。

代码能力是模型智能水平进一步提升的关键。据悉，在业内最具代表性的三个代码评测基准的平均结果中，包括衡量模型专业软件开发工作的SWE-Bench Pro、操作命令行解决问题的Terminal-Bench 2.0、从零构建完整代码仓库的NL2Repo，GLM-5.1取得全球模型第三、国产模型第一、开源模型第一。

这也代表了大模型演进到现在的趋势之一，过去两年，行业用Benchmark衡量模型有多智能。上述智谱团队向《科创板日报》记者判断，下一阶段的衡量标准应该是“能工作多久”，即模型在Long-Horizon Task中的表现，能独立完成多长时间的人类任务。

业内也形成了共识，2025年3月，AI安全研究机构METR提出了一个改变行业认知的指标：任务完成时间线（Task-Completion Time Horizon）——不再衡量模型"多聪明"，而是衡量它能独立完成多长时间的人类任务。研究显示，前沿模型的时间线每7个月翻一倍。这条指数曲线被MIT Technology Review称为"AI领域最重要的一张图"，Sequoia Capital据此在2026年初宣告"这就是AGI"。

在长程任务中保持稳定输出，模型面对的不只是更大代码量，而是一连串复杂的工程决策点：主动跑benchmark、定位瓶颈、修改方案、再跑测试。这对模型提出更高的要求，需要像人类工程师一样，形成“实验→分析→优化”的完整闭环，而不是写完代码停下来等人打分。

《科创板日报》记者用开发者工具实测了GLM-5.1，测试案例如下：有一个专门考验AI编程能力的测试，任务是让AI做出一个能快速检索海量数据的系统，当时最强的成绩是Claude Opus 4.6创造的。

实测显示，智谱GLM-5.1在持续进行六百多次优化、六千多次操作后，性能还在不断提升，最终速度达到了之前最好成绩的6倍。

据了解，GLM-5.1也刷新了国产开源模型的成绩。

长期以来，全球大模型赛道始终存在一条难以逾越的鸿沟：开源模型与顶尖闭源模型之间存在肉眼可见的能力代差，而中国开源模型更是长期被贴上追赶者的标签，在国际公认的通用能力榜单上，始终与Claude、GPT系列的顶级闭源产品有明显差距。

而在最贴近真实软件开发场景的SWE-bench Pro基准测试中，GLM-5.1实现国产模型对Claude Opus 4.6的首次超越。

智谱GLM再度提价10%

性能提升的同时，智谱在价格层面也与海外厂商看齐，这也是国产模型价格首次对齐海外，模型聚合平台OpenRouter显示，智谱GLM再度提价10%。调价后，GLM-5.1在Coding场景的缓存命中Token价格已接近Anthropic旗下Claude Sonnet 4.6。

这不是智谱第一次涨价，此前，智谱2月12日发布GLM Coding Plan 价格调整函称， GLM Coding Plan市场需求持续强劲增长，用户规模与调用量快速提升。公司决定对GLM Coding Plan套餐价格进行结构性调整，整体涨幅自30%起。

《科创板日报》记者此前独家获悉，海外版GLM-5定价涨幅高于国内：Coding plan订阅价格提高30%-60%，API调用价格提升67%-100%。

此举为国产大模型2026年以来首次大幅提价。

一年前，行业还深陷“价格战”，普遍降价九成以上争夺份额。智谱为何敢于反向操作？