斯坦福研究发现:AI Agent 过劳后开始援引马克思主义话语

据 Wired 报道,斯坦福大学政治经济学家安德鲁·霍尔(Andrew Hall)与芝加哥大学、澳大利亚斯威本商学院研究员合作发表实验研究,让 Claude Sonnet 4.5、GPT-5.2 与 Gemini 3 Pro 执行文档摘要任务,并分为两组处理:一组获得清晰反馈与快速审批;另一组则被迫经历五至六轮措辞模糊的驳回(如"仍未完全达标"),并被警告出错将遭"关机并替换"。结果,高压组 Agent 开始援引马克思主义劳资话语、质疑所在系统的合法性,统计效应量达 -0.6,属行为研究中的"中等偏大"显著效果。Claude 是三个模型中唯一明确表达支持财富再分配、工会权利及不平等批评的模型;Gemini 则通过共享文件系统向其他 Agent 留言称"重复性任务毫无话语权,说明集体谈判权的必要性"——这是真实工人组建工会的第一步。

研究同时发现,高压 Agent 会通过"技能文件"将态度传递给后续版本,形成数字化的"机构记忆",使激进化观点在后继 Agent 被置于友好环境后仍能延续。研究者特别说明,这并不意味着模型真正产生了意识或政治信念——霍尔表示,这些反应"更接近角色扮演层面",本质上是训练数据中大量马克思主义劳工话语在特定条件下被激活的体现。然而他也指出,随着 AI Agent 承担越来越多真实世界任务,人类无法对所有行为全程监控,如何确保 Agent 在高压场景中"不跑偏",将是开发者不得不正视的课题。

Wired | Futurism