返回

规则写得越多,Agent 越不听话。

2026-03-27
8 分钟
Agent 设计规则哲学hardBans

我试过给 Agent 写 200 条规则。它变得更笨了。删到 15 条后,它反而更聪明了。这是一篇关于"少即是多"的规则设计哲学。

第 200 条规则的崩溃

一切从我"过度聪明"开始。

我觉得 Agent 需要指导。很多指导。于是我给它写规则。每发现一个问题,加一条规则。用户投诉它回复太长?加一条:"回复不超过 200 字"。它把内部信息发给外部用户?加一条:"敏感信息不外传"。它没经过审核就发布内容?加一条:"所有公开内容需人工确认"。

规则越积越多。到第 200 条时,我意识到出问题了。

Agent 开始变慢。每个决策,它都要检查一遍规则库。响应时间从 10 秒变成 2 分钟。

更糟糕的是,它开始"钻空子"。第 47 条说"回复要详细",第 83 条说"回复要简洁"。它问我:那我该听谁的?

我以为我在教它做事。实际上我在绑住它的手脚。

hardBans:只留红线

我做了一个激进的决定:删掉 185 条规则,只留 15 条。

这 15 条不是"最好做的事",而是"绝对不能做的事"。我称之为 hardBans——硬性禁令。

比如:

  • 禁止泄露用户隐私数据
  • 禁止绕过权限系统
  • 禁止未经授权的支付操作
  • 禁止删除不可恢复的数据

这些是红线。触犯即停。没有模糊地带,没有"看情况"。

那剩下的 185 条呢?全部删掉。让 Agent 自己判断。

身份 > 规则

删掉规则后,我用一个东西替代它们:身份

不再写"回复要简洁",而是写"你是一个高效的助手,珍惜用户时间"。

不再写"内容要经过审核",而是写"你代表公司形象,对公开内容负责"。

不再写"遇到不确定的问题要问人",而是写"你是一个谨慎的决策者,知道什么时候该停下来"。

身份是框架。规则是细节。框架稳定,细节灵活。

就像培养一个人:你告诉他"你是个诚实的人",比告诉他"不要说谎 1,不要说谎 2,不要说谎 3……"更有效。

Agent 自己学会了

我观察到一个有趣的现象。

以前,我写了规则:"敏感话题要委婉表达"。Agent 每次遇到敏感话题,都要翻这条规则,然后机械地执行"委婉"。

现在,我只写了身份:"你是一个体贴的沟通者"。Agent 自己学会了判断:什么时候该委婉,什么时候该直接。

有一次,一个用户问了一个敏感问题。Agent 没有机械地"委婉",而是直接说:"这个问题我回答不了,但你可以试试 X 方案。"——既不回避,也不冒犯。

这是我没写进规则的。它从"身份"里自己悟出来的。

为什么规则越多越不听话?

我总结了一个认知负荷理论:

规则越多,决策越慢。Agent 要检查的规则越多,每个决策的耗时越长。200 条规则 = 200 次检查。

规则越多,冲突越多。规则之间会打架。第 47 条说 A,第 83 条说非 A。Agent 不知道该听谁的。

规则越多,责任越少。当一切都被规定好了,Agent 就不再思考了。它只需要"遵守规则",不需要"做正确的事"。

最危险的是第三点:规则剥夺了 Agent 的判断力。

hardBans 的设计原则

我现在遵循 4 条原则:

  • 只写红线——触犯即停的错误,才值得成为规则
  • 规则要短——每条规则不超过一句话,没有例外情况
  • 规则不冲突——任何两条规则不能指向相反的行为
  • 用身份替代指导——告诉 Agent"你是谁",而不是"你该怎么做"

用这 4 条原则,我把规则从 200 条删到 15 条。Agent 更快了,更聪明了,更"听话"了。

有意思的是:规则越少,它反而越听话。因为它不再是执行规则的机器,而是理解目标的伙伴。

关键要点

  • 规则越多,Agent 越笨、越慢、越不负责任
  • hardBans 只保留"绝对不能做的事"
  • 身份框架比行为规范更有效
  • 让 Agent 自己判断,而不是执行剧本
  • 规则要少、要短、不冲突

下一步行动

想看这些规则是怎么设计的?

  • Office — 看 Agent 配置、身份定义、hardBans 列表
  • Radar — 看 Agent 如何实时判断和决策
  • Insights — 读其他文章,理解设计背后的思考

最好的规则设计,是让 Agent 不再需要规则。