“从会话到行动”──解读 OpenAI 推出的 ChatGPT agent

July 17, 2025

聚焦 OpenAI 最新推出的 ChatGPT agent，从产品技术演进、核心能力亮点、应用场景及安全管控四个维度一探究竟。

在 2025 年 7 月 17 日，OpenAI 正式发布了全新一代智能代理──ChatGPT agent，它不仅能“聊”，还能“做”。对于科技记者而言，这既是一次技术的演进，更是人工智能实际落地应用的一次重大跃迁。以下，我将从产品技术演进、核心能力亮点、应用场景及安全管控四个维度，带你一窥这款“既能思考又能动手”的 AI 代理。

一、技术演进：融合 Operator 与 Deep Research 的优势

在此之前，OpenAI 曾先后推出 Operator（可在网页上进行点击、滚动、输入）和 Deep Research（可进行深入的信息检索与分析）两项能力。但这两者各有侧重、难以兼得：

Operator：能够与网站交互，但难以做复杂的深度分析报告；
Deep Research：能做高质量的信息合成，却无法登录受限页面、细化网页交互。

ChatGPT agent 则将二者优势一举融汇，借助统一的“智能+执行”框架，让模型在同一次会话中既能做深度研究，也能自动化浏览操作，从而实现“从发现问题到动手解决”的闭环。

二、核心能力亮点

1. 多模态工具链：视觉浏览器、文本浏览器、终端与 API

ChatGPT agent 配备了多种“工具”：

视觉浏览器：以图形化界面模拟人类在网页上的点击、输入；
文本浏览器：用于大文本的检索与分析，助力高效推理；
虚拟终端：可下载文件、运行命令、处理数据；
API 直连：通过 ChatGPT 连接器（Connectors）与 Gmail、GitHub 等应用无缝打通。

模型可根据任务需要，灵活切换工具，从网页抓取到本地命令行处理，再回到浏览器呈现结果。

2. 流程可视、可控、可打断

在执行过程中，用户始终掌握主动权：

实时旁白：每一步操作都会有文字说明，让用户清晰了解代理在干什么；
随时中断：可随时接管浏览器或停止任务，保证安全；
主动询问：对于关键操作（如支付、发送邮件），ChatGPT agent 会征求用户确认后才执行。

三、真实场景下的“生产力”提升

专业办公场景

自动化报告：将仪表盘或截图直接转换成可编辑的 PPT；
财务建模：利用终端和电子表格接口，自动更新财务数据并保持原有格式；
竞争分析：访问信息、整理要点、生成完整分析文档。

个人生活助手

旅行规划：搜集航班酒店、制定行程并自动预订；
宴会筹备：从选菜、下单到安排座位，一气呵成；
日程管理：检索邮箱、查看日历，按优先级提醒并可自动安排会议。

四、性能数据与安全保障

卓越的基准成绩

在多项业内权威测试中，ChatGPT agent 展现了领先实力：

| 基准 | 模型表现 | 说明 | |--------------------|-------------------|--------------------------------| | Humanity’s Last Exam | SOTA 41.6 (单次)44.4（并行策略） | 专家级问答测试 | | FrontierMath | 27.4% 正确率 | 最难数学题集 | | SpreadsheetBench | 35.3% → 45.5% | 电子表格编辑能力大幅超越竞品 | | … | … | … |

严格的安全与隐私控制

以往，Agent 类系统在操作时易遭遇“提示注入”攻击、数据泄露风险。为此，OpenAI 在 ChatGPT agent 上部署了多道防线：

Prompt Injection 抵御：训练模型识别、拒绝恶意指令；
用户确认机制：对高风险操作（如转账、发布）强制二次确认；
隐私清除一键式：可一键清空浏览数据、登出所有站点；
浏览器接管模式：输入的敏感信息（如密码）不被模型记录。

五、记者小结：下一步将如何演进？

ChatGPT agent 的推出，标志着“AI 助手”走向更深度的自动化与协作化。作为一名关注 AI·科技前沿的记者，我认为：

生产力工具的跃迁：从“辅助写作”迈向“端到端执行”，办公与生活场景均可实现更高效的闭环；
工具组合的灵活性：多工具并用使得同一模型能兼顾“深度思考”与“实际落地”，未来可预见更多行业专属“插件”加持；
安全与隐私仍是关键：随着能动性增强，误用与滥用风险同步放大，持续完善注入抵御、权限隔离将是必然之选；
可持续演进：当前仍处于 Beta、Early Access 阶段，格式美化、跨文件协同等功能仍需打磨，期待后续迭代。

未来，AI 代理将越来越多地参与到日常决策与执行中；它既是你身边的“智囊”，也是脚踏实地的“助手”。对开发者和企业而言，如何将其嵌入既有流程、赋能更多场景，是下一个值得关注的课题。

参考链接

Introducing ChatGPT agent: bridging research and action：https://openai.com/index/introducing-chatgpt-agent/

本文由 OpenAI 官方博客内容改写整理，未经许可请勿转载。

从狗语到普及——关于技术红利与归属感的思考

2025-07-23

Claude 4 Prompt Engineering Best Practices

2025-07-20