Agent —— 前沿趋势与产品格局

Agent 领域在 2025-2026 年间发生了几个根本性的变化,这些变化正在重塑从模型设计到产品形态的整个生态。本篇梳理这些变化,并对当前主流 Agent 产品的设计哲学做对比分析。

一、Reasoning Model 改变了什么

1.1 “思考型模型”的出现

2024 年底以来,OpenAI o1/o3、DeepSeek-R1、Google Gemini Thinking、Qwen QwQ 等”Reasoning Model”(推理模型)相继发布。这类模型的核心特征:在生成最终答案之前,先产生一段内部”思考链”(Chain of Thought),这个思考过程对用户不可见(或半可见),但显著提升了复杂推理任务的准确率。

这不只是性能提升,而是架构哲学的转变

1.2 对 Agent 设计的影响

传统 Agent 的设计逻辑:用外部 Scaffolding 弥补 LLM 的推理不足。通过 ReAct 循环、多步规划、Reflection 机制,让 LLM 完成它单步无法完成的复杂任务。

Reasoning Model 的出现提出了新问题:如果模型自己就能做复杂推理,外部 Scaffolding 还需要多少?

目前的答案是”部分替代,不是全部替代”:

场景 是否还需要外部 Scaffolding
复杂数学/逻辑推理 不需要,Reasoning Model 自己搞定
需要调用外部工具(搜索、计算、API) 仍然需要,模型内部思考不能替代外部信息
需要长时间运行的多步任务 仍然需要,上下文窗口和计算成本有限制
多 Agent 协作 仍然需要,单模型无法同时扮演多个角色

实际影响:对于简单的 ReAct 循环任务,直接用 Reasoning Model 单次调用可能比 3-5 轮 ReAct 更准确且更便宜;但对于需要真实工具调用、长时运行、多 Agent 协作的场景,外部架构仍不可缺少。

1.3 “快思考 vs 慢思考”在 Agent 里的体现

Kahneman 的双系统理论在 Agent 设计中有新的映射:

  • 系统 1(快):反应式 Agent,直接 LLM 调用,适合简单任务
  • 系统 2(慢):Reasoning Model + 外部工具循环,适合需要深度推理的复杂任务

好的 Agent 设计应该能够在两种模式之间动态切换,而不是固定使用一种。


二、Computer Use / Browser Use:新的行动边界

2.1 从 API 到 GUI

传统工具调用的前提是:目标系统提供结构化 API(REST、GraphQL、函数调用)。但现实世界中,大量系统没有 API,或 API 权限受限——它们的交互界面是图形界面(GUI)。

Computer Use(由 Anthropic 于 2024 年首次发布 API)和 Browser Use(开源库)让 Agent 具备了直接操控 GUI 的能力:

  • 截取屏幕截图,理解当前界面状态
  • 模拟鼠标点击、键盘输入、页面滚动
  • 填写表单、导航网页、操作桌面应用

这意味着 Agent 能做的事情从”调用有 API 的服务”扩展到了”任何人类能在电脑上做的事情”。

2.2 主要产品形态

  • Anthropic Computer Use API:以视觉感知+动作生成为核心,开发者可以基于此构建任意 GUI 自动化
  • OpenAI Operator:针对浏览器的 Agent,可以自主完成网页上的购物、预订、表单填写等任务
  • Browser Use(开源):Python 库,支持主流浏览器,是个人开发者快速构建浏览器 Agent 的常用工具

2.3 带来的新挑战

安全边界模糊:Agent 能操控整个电脑,如果被 Prompt Injection 劫持,攻击者可以让 Agent 截图、访问文件、执行任意操作。视觉 Prompt Injection(在网页上放置隐藏指令图片)是新的攻击面。

不确定性增加:GUI 的状态比 API 复杂得多,同一个网页在不同屏幕分辨率、不同加载状态下可能完全不同,Agent 的鲁棒性要求更高。

适用场景:Computer Use 目前最适合有明确目标、操作步骤相对固定的场景(如自动化测试、数据录入);开放性、探索性的任务成功率仍然有限。


三、MCP 生态的爆发

3.1 什么是 MCP

MCP(Model Context Protocol) 是 Anthropic 于 2024 年底推出的开放协议,目标是标准化 AI 模型与外部工具/数据源之间的通信方式

类比:MCP 对于 AI 工具集成,类似于 USB 对于硬件设备——在 USB 之前,每个设备都需要专用驱动;有了 USB 标准,任何设备插入任何电脑都能工作。

3.2 MCP 的架构

1
2
3
4
┌──────────────┐     MCP 协议      ┌──────────────────┐
│ MCP Client │ ←───────────────► │ MCP Server │
│(AI 助手/IDE)│ │(工具/数据源提供者)│
└──────────────┘ └──────────────────┘

MCP Server:暴露工具(Tools)、资源(Resources)和提示词模板(Prompts)的服务。任何人都可以发布 MCP Server。

MCP Client:能够发现和调用 MCP Server 的 AI 助手。Claude(Anthropic)、Cursor、VS Code、Windsurf 等都支持 MCP 客户端。

3.3 MCP 的意义与现状

MCP 的快速采用标志着 Agent 工具集成从”为每个服务写专用 Tool”转向”即插即用的工具生态系统”。截至 2026 年,社区已有数百个 MCP Server,覆盖 GitHub、Slack、Google Drive、数据库、浏览器等。

与相关协议的对比

协议 设计目标 通信对象
MCP 模型调用工具/数据源 模型 ↔ 工具服务
A2A(Agent-to-Agent) Agent 之间互相调用 Agent ↔ Agent
ANP(Agent Network Protocol) 更广泛的去中心化 Agent 网络 Agent ↔ Agent 网络

MCP 已经是事实上的工具集成标准,A2A 和 ANP 是面向多 Agent 协作的更高层协议,尚在早期阶段。


四、评估体系:如何衡量 Agent 的能力

随着 Agent 应用的普及,”我的 Agent 效果怎么样”成为无法回避的问题。

4.1 为什么传统指标不够用

对于单轮问答,准确率/F1 是合理的评估指标。但 Agent 的评估更复杂:

  • 任务成功不只是”最终答案正确”,过程中的工具调用是否合理同样重要
  • 同一个任务可能有多条正确的解题路径
  • 人工评估成本高,但自动化评估难以捕捉任务的细节

4.2 主流 Agent 评估基准

SWE-bench(软件工程基准)
从真实 GitHub 仓库中选取 Issue,要求 Agent 通过修改代码来解决。测试维度:代码理解、多文件修改、测试运行。是目前编码 Agent 最受认可的基准,各大厂商在此基准上激烈竞争。

GAIA(通用 AI 助手基准)
测试 Agent 处理需要多步骤的现实世界任务:网页浏览、文件处理、信息整合、数值计算。任务难度分三级,顶级任务需要十几步才能完成。相比 SWE-bench,GAIA 更偏通用助手能力。

BFCL(Berkeley Function Calling Leaderboard)
专门测试 Agent 的工具调用(Function Calling)能力:工具选择是否正确、参数是否准确、并行调用是否合理。对于工具密集型的 Agent 系统,这是最直接的能力评估基准。

Tau-bench
测试 Agent 在真实用户对话场景下(客服、助手)的工具调用能力,更接近实际业务场景。

4.3 LLM-as-Judge:用 AI 评估 AI

人工评估昂贵且难以规模化,LLM-as-Judge 成为常见替代方案:用一个强大的 LLM(如 GPT-4o 或 Claude Opus)来评估另一个 LLM/Agent 的输出质量。

优点:可规模化,评估成本低,能处理主观质量问题(文章写作质量、回答的全面性)。
局限:评估模型自身的偏见会带入评估结果;强模型偏好自己或相似风格的输出;在事实性核查上仍然可能犯错。

评估演进弧

1
人工评估 → 自动化指标(BLEU/F1)→ LLM-as-Judge → Benchmark Suite(SWE/GAIA)→ 生产环境持续评估

生产环境的持续评估是最终目标:在真实用户请求中抽样,自动评估 Agent 输出质量,建立质量监控闭环。


五、Agentic RL:用行为本身作为训练信号

核心理念:与其手工设计 Agent 的行为(ReAct、Plan-and-Solve),不如让模型通过与环境的真实交互来学习最优策略。

GRPO/PPO 在 Agent 上的应用

  • 让 Agent 在真实任务上尝试(如 SWE-bench 题目)
  • 任务完成→正奖励,失败→负奖励
  • 用强化学习更新模型权重,使其更倾向于产生正奖励的行动序列

DeepSeek-R1 是这个方向最引人注目的案例:通过大规模强化学习,模型在数学和代码任务上的推理能力显著超过了单纯通过 SFT(监督微调)训练的版本。

对 Agent 工程的意义:Agentic RL 训练出的模型会更自然地使用工具、更主动地规划,而不需要大量的 Prompt Engineering 来引导。这是 Agent 能力内化到模型权重的方向,与外部 Harness Engineering 形成互补。


六、2026 年产品格局全景

6.1 产品分类与代表

编码 Agent(最成熟的落地场景)

产品 出品方 核心定位 特点
Claude Code Anthropic CLI 编程助手 理解完整代码库,支持终端操作、测试、调试;Harness Engineering 的工程典范
Cursor Cursor Inc AI 原生代码编辑器 从编辑器设计层面集成 AI,代码库级别的上下文理解
GitHub Copilot Workspace GitHub/OpenAI 从 Issue 到 PR 的全流程 能理解 Issue 并自动生成实现方案,但仍需人工审查
Devin Cognition AI 全自主软件工程师 能自主完成整个功能的实现,是 SWE-bench 前期的领先者
Windsurf Codeium AI 原生 IDE 强调”Flow”——AI 与开发者无缝协作的体验

个人 Agent(开源/自托管)

产品 定位 核心特点
OpenClaw (68K⭐) 跨平台个人 AI 助手 Any OS/Platform,50+ 渠道,SOUL.md 人格配置,自托管
nanobot 极简个人 Agent 小而可读的核心 Loop,研究友好,支持 MCP 和多渠道

通用 Agent(云服务)

产品 出品方 定位 特点
Manus Monica.im 通用任务完成 Agent 中国团队,2025 年初爆发,能自主完成研究报告、代码、分析等复杂任务
OpenAI Operator OpenAI 浏览器任务自动化 专注网页操作,购物、预订、表单填写
Perplexity Perplexity AI 搜索增强问答 RAG+实时搜索,是搜索引擎和 Agent 的结合

6.2 设计哲学对比

自主性维度:Devin/Manus → 高自主(你给目标,它自己完成);Claude Code/Cursor → 协作式(它提建议,你决策);OpenClaw → 个人助手(随时可用,持续在线)

托管 vs 自托管:Manus/Operator/Devin 是云服务(数据上云);Claude Code/Cursor 本地运行(代码在本地);OpenClaw/nanobot 完全自托管(数据完全自控)

垂直 vs 通用:编码 Agent 是深度垂直;Manus/Operator 尝试通用;OpenClaw/nanobot 以个人效率为核心

6.3 行业趋势观察

从通用转向垂直:2024 年以来,资本和工程资源越来越集中在垂直场景的深度优化上(法律 Agent、医疗 Agent、编码 Agent),而非追求”什么都能做”。

开源生态崛起:OpenClaw(68K⭐)、nanobot、smolagents 等开源 Agent 的快速增长,表明开发者社区对”可自托管、可定制”的强烈需求。云服务在数据隐私敏感的场景存在天然障碍。

MCP 成为新的集成标准:越来越多的工具和服务开始发布官方 MCP Server,Agent 的工具集成成本持续降低,这会加速 Agent 在各行业的渗透。

评估基准驱动竞争:SWE-bench 已经成为编码 Agent 的行业标杆,各产品在此基准上的竞争推动了整体能力的快速提升。这种”有公认基准→有目标→快速迭代”的模式会在更多垂直领域复制。


七、总结

趋势 核心变化
Reasoning Model 模型内部推理能力增强,部分简单 Scaffolding 可简化,但工具调用和多 Agent 场景仍需外部架构
Computer Use Agent 行动边界从 API 扩展到 GUI,能做任何人能在电脑上做的事,但安全挑战加剧
MCP 生态 工具集成标准化,社区 MCP Server 生态爆发,即插即用成为可能
评估体系 SWE-bench/GAIA/BFCL 成为能力基准;LLM-as-Judge 规模化评估;持续评估是方向
Agentic RL 用真实交互的奖励信号训练模型,Agent 能力内化到权重,减少对 Prompt Engineering 的依赖
产品格局 编码 Agent 最成熟;通用 Agent 崛起(Manus/Operator);开源自托管需求强(OpenClaw/nanobot);垂直化是大方向

八、系列回顾

七篇笔记构建了一套完整的 Agent 认知框架:

  1. 全景认知:三个心智模型(LLM as OS / Agent 公式 / Chatbot→Agent 光谱)+ 基础概念
  2. LLM 基础:技术机制 + 局限性 + PE→CE→Harness Engineering 三阶段演进
  3. 核心范式:五种编排模式 + ReAct/Plan-and-Solve/Reflection + Function Calling + Structured Output
  4. 框架生态:六层分类图谱 + 选型判断逻辑 + OpenClaw/nanobot 个人 Agent 代表
  5. 记忆与知识:四种记忆类型 + RAG 原理 + Agentic RAG + GraphRAG + 长上下文 vs RAG
  6. 工程可靠性:自主性谱系 + HITL + 可观测性 + 安全防护 + 成本三角
  7. 前沿与格局:Reasoning Model + Computer Use + MCP + 评估体系 + 产品全景

从概念到工程,从范式到产品——这套框架的目的是让你在面对 Agent 领域的任何新名词、新产品、新技术时,都能快速找到它在这张地图上的位置。