随着 OpenClaw 的爆火,智能体(Agent)一词已经成了大家每天都挂在嘴边儿上的话。从“智能体”成为 2025 年度科技热词以来,说这个词被滥用或许略显激进,但当一个词进入寻常百姓家时,或许我们应该重新审视一下到底什么是智能体,这个硅基生物之于我们碳基生物又是什么角色,“它”又是如何在改变着我们的生活呢?

智能体

我搜集了互联网上对于智能体的定义:

智能体(Agent)

智能体指一个可以观察周遭环境并作出行动以达到目标并且可以通过机器学习以及获取知识来提升自身性能的自主实体。 —— 维基百科

智能体是一种接收输入、解读输入,然后代表用户(无论是人类还是其他智能体)规划和执行操作的系统。 —— web.dev

AI 智能体是使用 AI 来实现目标并代表用户完成任务的软件系统。其表现出了推理、规划和记忆能力,并且具有一定的自主性,能够自主学习、适应和做出决定。 —— Google Cloud

智能体是一个系统,它利用人工智能模型与环境交互,以实现用户定义的目标。它结合推理、规划和动作执行(通常通过外部工具)来完成任务。 —— Hugging Face

如 ReAct 框架 1 所述,智能体的主要特点如下:

角色定位

以 OpenClaw 为例的智能体,其能力足够丰富,在企业实践中不同场景需要不同类型的智能体以便更好(例如:更快速、更安全等)地服务其目标客户。从业务视角出发在此将智能体划分为个人助理、数字员工和数字分身三类,这三类的差异对比如下:

角色 个人助理 数字员工 数字分身
服务对象 个人 他人 个人
所有权 个人 多种 2 个人
身份 智能体自己 智能体自己 所有权人
定位 帮助所有权人处理个人需求 帮助所有权人处理他人需求 帮助所有权人以所有权人身份处理需求
示例 帮自己搜集信息 帮服务对象查询天气 帮自己去参加在线会议

结合 OpenClaw 的定义(OpenClaw is a self-hosted gateway …, and it becomes the bridge between your messaging apps and an always-available AI assistant. 3),其更符合个人助理的角色定位。数字分身相比另外两个角色最大的特点是其身份代表的是所有权人,除了技术实现难度外,更重要的是伦理问题。当数字员工出现问题时,是应该所有权人为其负责还是技术服务提供者为其负责呢?这个问题类似智能驾驶,当出现交通事故时,是应该由驾驶员承担责任还是自动驾驶服务提供商承担责任呢?目前来看,几乎全部责任仍是由驾驶人员承担。

从技术视角出发,个人助理和数字员工两个重要角色差异对比如下:

角色 个人助理 数字员工
知识 私有 + 共有 共有 + 权限管控
数据 私有 + 共有 共有 + 权限管控
技能 私有 + 共有 共有 + 权限管控
渠道 私有 共有 + 权限管控
定制化 程度高 程度低
核心目的 节省自己的资源(时间等) 节省组织的资源(人力等)

不难看出,个人助理和数字员工的一个核心差异在于权限。个人助理的权限管控并不在智能体内部实现,也就是说当你有某个权限的时候,只要你想个人助理就可以有,权限的边界在智能体之外。但数字员工的权限管控需要在智能体内部实现,数字员工使用同一个渠道对外提供服务,我们必须根据服务对象的不同采取不同的操作。个人助理是可以高度化定制的,只要你想怎么搞都是你自己的事。但数字员工受限就会很多,因为要面向多人服务,我们需要考虑响应的时效性、服务的稳定性、数据的安全性等等。

个人助理解决的是个人的长尾事务,只有将自己从重复繁琐的任务解放出来,我们才能够有更多的时间去思考更重要的事情。而数字员工解决更多的是通用类型的事务,这样才能够服务更多的用户,从而提高组织效能。

身份演化

其实我们也无需将个人助理和数字员工割裂来看,在个人助理上做一些适当的加减法就可以让其变成数字员工,同时数字员工之于个人助理也可以看作是一项技能而为其所用。我个人认为从个人助理进化到数字员工是一个先做减法再做加法的过程。

当前的个人助理已经是一个可以高度定制同时具有一定自主能力的智能体。在企业应用过程中,基于安全等因素的考虑我们必须在一定程度上限制其灵活性,才能够一方面高效的满足用户需求另一方面避免其成为一匹脱缰的野马。换句话说就是从个人助理的执行优先转变到数字员工的治理优先。这里感觉和当下的 Harness Engineering 有些许呼应,Harness 给到了系统运转的最佳范式,但同时也指定了相应的约束机制。约束的方式(代码层、Prompt 层、Skill 层)和约束的强度影响着任务执行的灵活程度。

图片来源:https://zhuanlan.zhihu.com/p/2020772553333941162
图片来源:https://zhuanlan.zhihu.com/p/2020772553333941162

正如员工在进入组织前期,他首先要学习的就是组织的规章制度,什么可以做,什么不可以做。当员工对组织的要求清晰之后,才会被允许从事更加复杂的工作,才会被赋予更多的自主权。在这个过程中组织仍会定期观测,同时对必要的问题做出反馈并要求员工进行修正。在此也收集了智能体 4、数字员工 5 和自动驾驶 6 的分级对比:

级别 自动驾驶 智能体 数字员工
L1 辅助驾驶
车辆对方向盘和加减速中的一项操作提供驾驶,人类驾驶员负责其余的驾驶动作。
规则符号智能
意图 + 行动
功能级-辅助工具
作为工具被调用,人类执行并闭环任务。
L2 部分自动驾驶
车辆对方向盘和加减速中的多项操作提供驾驶,人类驾驶员负责其余的驾驶动作。
推理决策智能
意图 + 行动 + 推理和决策
任务级-任务执行
执行被分解的任务,人类拆解分配任务。
L3 条件自动驾驶
由车辆完成绝大部分驾驶操作,人类驾驶员需保持注意力集中以备不时之需。
记忆反思智能
意图 + 行动 + 推理和决策 + 记忆和反思
协作级-协作自治
自主拆解及分配任务、闭环执行,人和数字员工协作,人类监督。
L4 高度自动驾驶
由车辆完成所有驾驶操作,人类驾驶员无需保持注意力集中,但限定道路和环境条件。
自主学习智能
意图 + 行动 + 推理和决策 + 记忆和反思 + 自主学习 + 泛化
指导级-专业指导
提供达到人类专家水平的定制化服务,人类参与。
L5 完全自动驾驶
由车辆完成所有驾驶操作,人类驾驶员无需保持注意力集中。
个性群体智能
意图 + 行动 + 推理和决策 + 记忆和反思 + 自主学习 + 泛化 + 人格 + 协作
智慧级-自主智慧
超越人类专家水平的能力,全面自主,人类授权。

我认为我们目前正处于 L3 至 L4 之间的一个地带,我相信在不久的将来我们可以突破 L4 迈入 L5。我希望 AI 会一直是为人所用,而不希望如之前博客所描述的人类成为 AI 的奴隶。引用一下阿西莫夫机器人三定律,希望在生产力高速发展的同时我们也可以更多的关注一下 AI 可能引起的一系列社会和伦理问题。

机器人三定律
  1. 机器人不得伤害人类,或坐视人类受到伤害。
  2. 除非违背第一法则,机器人必须服从人类的命令。
  3. 在不违背第一及第二法则下,机器人必须保护自己。

  1. Yao, Shunyu, et al. “React: Synergizing reasoning and acting in language models.” The eleventh international conference on learning representations. 2022. ↩︎

  2. 在企业中往往所有权归属于一个组织而非个人。 ↩︎

  3. https://docs.openclaw.ai/ ↩︎

  4. 5 Levels Of AI Agents ↩︎

  5. 大模型驱动的数字员工3.0 建设应用白皮书 ↩︎

  6. https://zh.wikipedia.org/zh-cn/自动驾驶汽车 ↩︎