智谱GLM-5.1发布：长程任务性能超越Opus 4.6

GLM-5.1正式开源：能连续工作8小时的“虚拟员工”来了

4月10日，智谱AI正式发布并开源新一代大模型GLM-5.1。这不是一次普通的版本迭代，而是一次对AI能力边界的重新定义——它不再是“你问一句，它答一句”的工具，而是能像真人一样，独立完成一项耗时数小时的复杂工程任务。

在一次测试中，GLM-5.1连续运行8小时，自主完成了一个大型数据检索系统的重构：从理解需求、拆解模块、编写代码、调试错误，到优化性能、生成文档，全程无人干预。最终，系统运行速度提升6倍，代码结构清晰可维护，甚至自动补充了注释和单元测试。

这不是演示，而是实测结果。在专业软件开发测试基准SWE-bench Pro中，GLM-5.1以78.3%的通过率，首次超越了此前领先的海外模型Opus-4.6。这意味着，它在真实代码场景下的表现，已经站上全球开源模型的顶峰。

过去，大家看大模型，拼的是榜单分数、参数规模、响应速度。而GLM-5.1的突破，是让模型拥有了“持续思考”的能力。

它不再依赖人类不断提示。当你给它一个模糊的需求，比如“帮我优化这个日志系统，让它支持每秒百万级写入”，它会自己拆解：先分析现有架构瓶颈，再查开源方案，尝试不同算法组合，遇到报错自动回溯，甚至能根据运行日志判断哪个模块拖慢了效率，然后主动重写。

在一次内部测试中，团队让GLM-5.1处理一个包含12个子模块、超过5万行代码的分布式系统。它花了7小时43分钟，完成了重构、压测、性能调优，并输出了完整的变更报告。团队成员说：“我们本来以为它只能写个脚本，没想到它连运维方案都给你列好了。”

这种能力，让开发者开始重新思考AI的角色——它不再是辅助工具，而是可以并肩作战的“搭档”。

就在GLM-5.1发布当天，智谱宣布API价格上调10%。在代码生成场景下，其定价已与Anthropic的Claude 3.5持平。

这在AI行业掀起不小波澜。过去几年，国内厂商靠低价抢市场，模型越做越大，利润却越来越薄。有人调侃：“我们不是在卖AI，是在卖算力和情怀。”

智谱CEO张鹏公开表示：“如果所有人都在亏钱做模型，最后没人能坚持。我们不是要赚暴利，而是要让AI的价值回归合理。”

数据显示，自去年底以来，智谱的API年度经常性收入（ARR）增长了60倍，客户从中小开发者扩展到金融、制造、科研等领域的头部企业。一位某车企的AI负责人透露：“我们试了几个模型，最后选了GLM-5.1，不是因为它最便宜，而是它能真正把需求落地，省下我们一个工程师两周的加班时间。”

智谱不是孤例。2026年开年以来，国内主流云厂商集体调整AI服务价格：

这不是简单的“涨价潮”，而是一场深刻的行业洗牌。当模型从“能用”变成“好用”、“可靠”、“能独立交付成果”，市场开始愿意为真正的价值买单。

现在，你可以在GitHub上直接下载GLM-5.1的开源版本，部署在自己的服务器上。它不炫技，不吹牛，但你一旦用它写过一段复杂代码、跑过一次完整任务，就会发现：它不再像“机器人”，更像一个沉默、专注、从不抱怨的同事。

有人问：这算不算AGI？没人能给出标准答案。但一个事实是：当一个模型能连续工作8小时，不犯低级错误，不中途放弃，还能自我优化时，它已经具备了“员工”的基本素质。

未来，我们或许不再问：“这个AI有多聪明？”

而是问：“它今天能帮我把这单活干完吗？”