智谱放大招:大模型从「Chat」走向「Act」

 

头图来源:智谱

 

每次不知道吃什么的时候,都会羡慕古代的富贵人家,不用自己想,比你自己还懂你的管家就安排的明明白白——今天随着 AI 的发展,这样的场景正在成为现实。

 

业内普遍认为,2025 年将是 Agent 爆发之年。Gartner 近期将 agentic AI 列为 2025 年十大技术趋势之一,并预测 2028 年至少有 15% 的日常工作决策将由 agentic AI 自主完成。

 

与 GenAI(生成式人工智能) 不同,Agent 是目标驱动型的,能够完全执行工作流程,适应、学习、迭代、与其他系统和人类协作,并端到端地完成任务。在智谱CEO 张鹏看来,Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。

 

此前在10月,智谱就推出了自主智能体——AutoGLM。AutoGLM不仅能够模拟用户的屏幕操作,如点击手机应用,还能在浏览网页时有效辅助用户,涵盖了日常生活中广泛需用的多个领域,包括社交、网购、地图导航和火车票订购等。

 

今天,在其最新的「Agent OpenDay」活动中,智谱展示了AutoGLM多项进展,展示了大模型技术如何将「对话」从简单的互动提升为具有高度自主性的操作系统:可自主完成超过50步的复杂操作,并能跨应用程序协作执行任务;支持数十个网站的「无人驾驶」;此外,基于视觉多模态模型的GLM-PC也进入内测阶段,致力于探索通用智能体技术,实现像人类一样操控计算机。

 

在 Agent OpenDay 现场,智谱 CEO 张鹏 通过在现场下达语音指令,让AutoGLM 面对面建群,给现场数百位嘉宾发送了总共2万元的微信红包,并且演示了手机远程指挥电脑自动发送文件。

 

AutoGLM 新升级:挑战更复杂

 

在活动上,智谱重点展示了其最新升级的AutoGLM,它能够自主执行复杂且多步骤的任务,跨应用处理需求,甚至在全程无人干预的情况下自动操作多平台。

 

AutoGLM能够高效完成超长任务链,比如呀在购买火锅食材的场景中,AutoGLM无需人工干预即可执行54步任务,且速度超越人工操作;支持跨应用任务执行,用户仅需发出简短指令,系统便能自动调度并完成多个应用间的任务;简化了操作流程,用户可通过简单语音命令启动复杂操作,如一句「点咖啡」便能自动完成从选择到购买咖啡的全部流程。

 

为了提升个性化体验,AutoGLM还引入了「随便模式」,通过分析用户偏好和历史行为,主动为用户做出决策,进一步优化使用体验。

 

同时,智谱宣布AutoGLM 启动大规模内测,并将尽快上线成为面向 C 端用户的产品;「10个亿级 APP 免费 Auto 升级」的计划也已启动;支持核心场景和核心应用的 AutoGLM 标品 API,则会在两周内上线到智谱maas开放平台试用。

 

此外,智谱清言插件也上线了 AutoGLM 功能,支持搜索、微博、知乎、Github 等数十个网站的「无人驾驶」。

图片

智谱清言插件上线 AutoGLM 功能|图片来源:智谱

 

GLM-PC :面向「无人驾驶」电脑的一次技术探索

 

除了手机和浏览器,智谱还带来了基于PC的自主Agent——GLM-PC。这是智谱在「无人驾驶」PC领域的技术探索,基于其多模态模型CogAgent开发。

 

GLM-PC目前已经开始第一阶段的内测,提供多项核心功能,包括帮助用户预定和参与会议,并自动发送会议总结;支持文档处理,如下载、发送、理解和总结文档;在指定平台(如微信公众号、知乎、小红书等)进行关键词搜索并完成总结;具备远程和定时操作功能,支持远程发指令并执行电脑任务,或在设定时间自动完成任务;此外,GLM-PC还引入「隐形屏幕」模式,能够在用户工作时自主完成任务,释放屏幕使用空间。

 

GLM-PC的设计理念是模拟人类的电脑使用方式——眼睛观察屏幕、脑海中进行规划,再通过手部操作执行指令。

 

凭借这一设计,GLM-PC能够完成复杂的PC任务,甚至可以自主学习和执行所有为人类设计的应用,表现出跨平台的强大能力。这是一种系统级、跨平台的能力,不依赖于 HTML、API,具备更高的能力上限。

 

不过,智能体在执行复杂业务流程时,通常需要调动大量数据和应用程序,但由于许多网站和APP的API缺乏统一标准,这就会让企业在集成智能体时面临一些挑战。

 

对于这一点,智谱AutoGLM技术负责人刘潇指出,AutoGLM通过图形化用户交互界面来解决这一问题,而非依赖传统的API调用。

 

与传统API集成容易因应用更新而导致失效不同,AutoGLM模拟人类的操作方式,只要应用界面保持用户可理解并且易于使用,智能体就能够在该界面上顺利执行任务,从而规避了API标准化不足带来的问题。

 

由于PC任务的复杂性,目前GLM-PC还需要用户输入精准指令,距离全面替代人工办公还有一定差距。但随着技术的不断进步,GLM-PC的能力将进一步增强,未来有望为用户提供更为高效、直观的PC操作体验。

 

大模型应用新阶段:从 Chat 走向 Act

 

关于最近热议的Scaling Law是否放缓,张鹏认为,Scaling Law放缓只是一个表面现象,背后可能存在更深层次的原因。

 

他指出,尽管在语言处理领域可能接近人类认知的极限,但仍有可能通过大量数据和大规模处理突破这一瓶颈。在多模态应用和智能体等领域,Scaling仍然有很大的探索空间。

 

在张鹏看来,计算量和有效信息可能是关键因素,预训练阶段的放缓并不意味着整体进展停滞。事实上,后训练阶段仍然存在Scaling效果,尽管这种效果不再像预训练时那样简单地依赖数据量和参数量的增加,而是更加复杂和精细。

 

这种突破正是当前AI技术发展的核心之一——如何将大模型从单纯的「理解」层面提升到「行动」的能力。大模型的价值不应只是作为chatbot存在,它的真正价值在于其强大的「理解」与「预测」能力。

 

这种能力使得大模型能够深度解析和理解人类的复杂语义、情感以及抽象概念,进而进行精准的推理和预测。如何将这些强大的能力从单纯的文本交互中解放出来,应用到更广泛、更实际的场景中,就要从现在的「Chat 」走向「 Act」 。

 

Act,即行动,代表着大模型技术从理解和预测到实际行动的跨越。这不仅意味着模型能够根据输入的信息作出反应,更意味着它能在更复杂的动态环境中进行决策,解决问题,甚至创造新的价值。

 

在张鹏看来,「现阶段,AutoGLM 相当于在人与应用之间添加一个执行的调度层,很大程度上改变人机的交互形式。更重要的是,我们看到了 LLM-OS 的可能,基于大模型智能能力(从 L1 到 L4 乃至更高),未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。」

 

AutoGLM和GLM-PC是智谱对AI智能操作系统的一次重要尝试。它们的出现源于智谱在大语言模型、多模态模型、逻辑推理和工具使用等方面的技术积累。

 

从2023年4月的AgentBench开始,到8月的CogAgent模型,智谱针对AutoGLM,和GLM-PC的模型CogAgent的研发工作进行了一年半的时间。

 

与 OpenAI 有所不同,智谱定义了大模型发展的五个阶段:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

 

图片

智谱定义的大模型发展五个阶段|图片来源:智谱

 

目前的Agent能力能够帮助用户链接众多应用,未来甚至有望链接所有设备。

 

理论上,随着Agent能力持续提升,它们将能够驾驭越来越多的应用程序,适配多样化的操作系统,并执行日益复杂的自主操作。这被认为是大模型通用操作系统LLM-OS的初步形态。

 

为此,智谱已在芯片、操作系统OS 、模型侧和应用app侧,进行了一段时间的探索。

 

在终端层面,智谱已经和手机厂商、PC厂商实现深度合作,在 AIPC、智能助手Agent等领域有诸多成果。智谱也与高通、英特尔等芯片厂商展开密切协作,联合调教端侧大模型,以发挥最新芯片的性能。

 

通过端侧芯片性能优化和端云一体架构,Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。

 

这种扩展,具体到当下的各种设备,从手机到电脑,再到汽车、眼镜、家居和各种 edge side 设备,理论上是没有边界限制的。

 

智谱 COO 张帆谈到,智能设备在大模型的加持下,将会焕发出新的机会。

 

随着端侧性能及算力持续提升、为AI原生设备适配的模型和端云同源的协同架构出现,Agent 不仅在操作系统 OS 和应用上实现用户体验变革,还能将其推广到各类智能设备上,从手机到电脑,再到汽车、眼镜、家居和各种 edge side 设备,各种 AI 原生设备正在争相涌现。

 

随着Agent技术的发展,AI与人类的互动模式将不再局限于简单的对话,未来的机器将不仅能听懂人类的指令,还能够主动思考、决策并执行任务。

 

2025年或许会成为Agent技术爆发的关键年份,Agent将进一步改变我们与机器的关系,带来更加智能化、个性化和高效的生活与工作方式。