虽然ChatGPT、Claude、Gemini等聊天机器人在人工智能领域近期占据了主导地位,但对于大多数公司而言,这并非最终目标。它们的愿景是开发出能够像人类一样,甚至超越人类进行推理的人工通用智能(AGI)。然而,这需要经历多个逐步发展的阶段。
聊天机器人确实展现了巨大的潜力,但其作用也存在局限性。由于缺乏自主性,它们在提升效率和生产力方面的贡献有限。在追求高效的世界里,这种局限性导致聊天机器人在营收方面未能达到预期。不过,聊天机器人只是这一发展阶梯的基础。
正因如此,AI公司将未来的赌注押在了AI agent上,认为它们才是AI的最直接未来。AI agent既不同于聊天机器人,也不同于当前网站上的大多数客户支持机器人。它们能够超越遵循指令的范畴,自主做出决策。
与当前的客户支持机器人互动往往令人疲惫,因为它们通常无法解决问题,即使能解决,也需要很长时间。相比之下,人工代理在效率和能力上更胜一筹。然而,随着具有自主性的AI agent的出现,这种情况将会改变。
什么是AI agent?
关于AI agent的定义,即使是专家也没有给出确切的答案,但他们拥有一个不断演进的愿景。可以确定的是,AI agent是能够在现实世界环境中自主进行复杂决策的模型。它们仍然需要偶尔的人类指导和干预,但能够处理的任务范围要大得多。
像ChatGPT这样的聊天机器人可以提高人类的生产力,但AI agent则能在较低层面上取代人类。与当前生成式AI机器人只是生成下一个可能句子中的单词不同,AI agent能够思考和推理。例如,OpenAI的o1形式已经为我们展示了推理模型的预览。
然而,思考和推理只是AI agent的一个方面。它们还应具备在复杂和动态环境中追求人类设定目标的能力,而无需进行教学。因此,与当前聊天机器人需要人类在每个步骤中指示相比,使用AI agent时,只需设定目标即可。此外,AI agent还应是主动的,不像聊天机器人那样需要等待提示。
另一个重要方面是,AI agent能够通过反馈进行学习,不断改进工作。它们甚至不需要依赖人类的反馈来学习和进步,而是可以通过自身经验进行学习。
AI agent如何工作?
以AI agent处理客户投诉为例,它们不仅仅是按照通用指令处理并追求预定结果。它们能够查找客户参考ID和内部文件,根据需要询问进一步问题以了解问题,并提供解决方案。如果无法提供帮助,它们还可以将客户转接给人工代理。
AI agent不仅擅长客户支持,还将在软件开发等领域发挥重要作用。预测显示,未来三年内,许多组织将使用AI agent来编写和重写代码,开发人员将转向审查者的角色。许多公司正在为其内部工作量开发代理系统,并已从概念验证阶段发展到试点阶段。
AI agent已经在许多公司内部部署,用于各种任务。一些公司已经向企业客户提供了初始版本,如Salesforce的Agentforce。在完全取代呼叫中心员工之前,只需几年时间。大多数公司还将实施多个AI agent系统,每个系统用于处理不同任务,这些代理可以相互通信和协作。
企业越来越多地在不同角色中采用AI agent,但它们的应用不仅局限于企业。一些公司正在改进个人助理的功能,使其在应用人工智能方面更加有用。理想的AI agent将像人类助手一样,能够代表用户进行购买、预订和管理旅行、安排会议并发送邀请等。它还应能够使用和与其他工具交互,如网络搜索、编程,甚至其他人工智能工具。
理想情况下,AI agent还将是多模态的,能够原生处理音频、图像和视频作为输入。当然,AI agent不会是单一类型的,不同情况需要不同的技能集。
AI agent的当前局限性
目前,完全自主且有用的AI agent面临许多挑战。要使它们真正自主且有用,需要降低错误率。当前AI极易产生幻觉,为了实现更广泛的应用,错误率至少需要降低到低于1%。此外,还需要解决它们在何时将问题转交给人工代理的问题,以及在推理过程中如何解决探索性问题。
上下文也是AI agent面临的一个问题。以当前形式使用AI聊天机器人进行编码时,很容易对其编码能力感到失望。这主要是因为上下文的限制。此外,还需要考虑安全问题和访问控制,以确保AI agent只执行授权操作,不访问未授权信息。同时,还需要注意安全漏洞,如提示注入。
所需的训练数据和计算资源也是一个障碍,但AI公司正在不懈努力解决这些问题。例如,谷歌已经提供了一个200万个上下文窗口,并着手使其无限扩展。
尽管目前AI的能力可能不如我们期望的那样,但这一天离我们并不遥远。事实上,它比大多数人想象的更近。随着技术的不断进步和问题的逐步解决,AI agent的未来充满了无限可能。