为什么 OpenAI 的新 AI 代理工具可以改变你的编码方式

如果您曾经担任过生产开发人员,那么您就会知道应用程序编程接口(API)可能会根据提供商的想法而改变。
你可能某天晚上睡觉时知道自己的应用很稳定,前景光明。但第二天早上醒来,你发现你的某个 API 提供商宣布了一项变更,要求你在接下来的六个月内重新编码你的应用,以便与修订后的 API 兼容。问我我是怎么知道的。
基于 AI 的应用程序也无法免受 API 生命这一不变法则的影响。OpenAI 已宣布推出 Responses API,这将导致其 Assistants API 在 2026 年某个时候停用。
与大多数 API 更改一样,新 API 功能更多、性能更佳、功耗更低。然而,尽管具有这些功能,新 API 仍为早期使用旧 API 的用户增加了一些需要解决的问题。
OpenAI 宣布了一系列用于构建 AI 代理的程序员级新功能,其中包括 API。在深入了解新功能之前,让我们先了解一下这一变化的背景。
您可能已经注意到,自从几年前生成式人工智能(Gen AI) 突然出现以来,几乎每种产品和服务似乎都突然在其基本产品中添加了 AI 追加销售功能。这是许多产品和服务的绝佳产品线扩展,但并不是每个供应商都有 AI 研究团队构建大型语言模型。
相反,这些公司拥有授权 API,以相当可预测的每笔交易费用提供 AI 服务。不同模型的成本不同,但粗略估计,开发人员可以用一美元进行 67 个GPT-4.5典型聊天查询、1,176 个GPT-4o查询或 20,000 个GPT-4o 迷你查询。
借助 OpenAI 的 API(以及其他 AI 公司的 API),只需简单的函数调用和信用卡即可将 AI 功能添加到代码中,从而缩短数年的开发时间并节省数百万美元的基础设施和研究成本。
新的响应 API
到目前为止,OpenAI 提供了一个 API,即 Chat Completions API,用于向ChatGPT发送聊天提示查询并获得响应。OpenAI 还提供了一个 API,即 Assistants API,使代理能够执行多步推理并访问文件。
新的 Responses API 结合了之前两个 API 的功能。虽然 Chat Completions API 预计将保留,但该公司已宣布计划最早于明年停用 Assistants API,转而使用功能更强大的 Responses API。
使用 Responses API 的费率位于OpenAI 的定价页面上 ,并且根据模型和使用情况而有所不同。
Responses API 有三个内置工具可供程序员调用:网络搜索、文件搜索和计算机使用情况。
网络搜索工具
如果您曾经使用 ChatGPT 搜索网络并汇总答案,那么您就会知道网络搜索工具的作用。就 Responses API 而言,它允许程序员从其程序内部发起此类查询。
使用时,API 会提供文本作为响应,并提供来源和内联引用的链接。其中许多响应应该是正确的。该公司引用了一张图表,显示使用 GPT-4o 进行的网络搜索测试只有 38% 的正确率(下次使用 ChatGPT 搜索时请记住这一点),但使用 GPT-4o 搜索预览和 GPT-4o 迷你搜索预览进行的搜索十有八九是正确的。
大部分都很好就是相当不错,对吧?
文件搜索工具
接下来是文件搜索工具,它将搜索您的公司文档库。是的,我知道你在想什么。OpenAI表示它不会用业务数据训练其 AI。因此,您应该相当有信心,上传所有数据都是安全的,并且不会出现在其他人对提示的响应中。
不过,也存在一些问题。首先,文件存储每月每 GB 0.10 美元,并不便宜。我家小公司的企业文档数据库有 57TB。如果将该数据库上传到 OpenAI 进行上下文特定的 AI 搜索,存储费用每月将接近 6,000 美元——而我的公司只有两名员工。
拥有 AI 搜索工具的好处是能够打破数据孤岛。但如果数据孤岛使得仅上传部分数据来存储数据更加经济实惠,那么这种定价可能会限制此功能的实用性。
电脑使用工具
最后,OpenAI 将其计算机使用工具、屏幕查看和点击工具作为其操作员代理产品的核心。
这个东西应该能够读取屏幕,并根据屏幕内容执行处理或点击以引发操作。从演示(尤其是当前公告的预览)来看,该工具在普遍使用之前还有很长的路要走。
请继续关注此功能。
代理 SDK
API 是一组用于与外部系统交互的端点或函数调用。SDK(软件开发工具包)是一个更广泛的集合,通常包括协同工作的软件工具、一些 API、库和实用程序。
OpenAI 宣布推出 Agents SDK,这是一套用于构建、调试和监控代理运行的工具。该套件包括 Responses API 并添加了工作流编排,允许程序员进行多步骤推理和任务执行。
该套件还允许程序员创建代理团队,每个代理承担特定职责。“交接”功能允许一个代理完成一些工作,然后将处理工作移交给另一个代理,依此类推。
此外,我认为这是最重要的功能之一,监控仪表板允许开发人员查看与 AI 的每次交互,确定哪些代理用于什么目的,以及它们如何执行任务。随着AI 幻觉的盛行,能够跟踪所有这些独立任务的进展非常重要。
您如何看待 OpenAI 的最新更新?
您是否计划将 Responses API 集成到您的项目中,或者您是否担心 OpenAI 会停止使用 Assistants API?
您对内置工具(如网页搜索、文件搜索和计算机使用)有何看法?它们解决了实际问题还是带来了新的挑战?