终于，AI大模型长出了自己的手脚

AI大模型自主智能体企业业务流程

原创月满西楼 | 2024-06-07 11:00

【数据猿导读】大模型技术，由于其在自然语言处理和复杂数据分析上的出色表现而备受瞩目。然而，尽管技术上取得了突破，大模型在企业应用市场的实际落地却面临不少挑战，尤其是如何深入整合进企业的核心业务流程中。企业核心业务高度依赖于具体、实时且连续的操作流程，而大模型在此方面的应用往往只停...

大模型技术，由于其在自然语言处理和复杂数据分析上的出色表现而备受瞩目。然而，尽管技术上取得了突破，大模型在企业应用市场的实际落地却面临不少挑战，尤其是如何深入整合进企业的核心业务流程中。企业核心业务高度依赖于具体、实时且连续的操作流程，而大模型在此方面的应用往往只停留在表面，难以触及业务流程的深层次需求。

除了开源大模型本身在理解真实业务流程上的不足，另一个主要障碍是许多企业用户缺乏足够的数据沉淀，甚至连基本的知识库都没有。这使得即便大模型具备强大的对话能力，也无法调用企业内部的知识库信息，进一步限制了其在实际业务中的应用。

在这样的背景下，各类技术厂商开始从不同角度，探索将大模型落地到企业应用场景的方法。数据猿观察到，实在智能近期推出的自主智能体——实在Agent，为我们带来了一些新的思路。这类智能体通过结合RPA、数字员工技术，致力于实现大模型技术与企业的日常运营和决策流程无缝对接。

自主智能体，让大模型真正融入企业的业务流程

大模型技术，尽管在人机交互领域表现出色，却在深入企业核心业务流程中遭遇难题。这主要体现在两个方面：其在人机对话中的局限性，以及缺乏有效嵌入业务流程的能力。

当前的大模型，不管是国外的ChatGPT、Gemini、Claude、LLaMA，还是国内的文心一言、通义千问、讯飞星火、豆包、智谱清言、Kimi等，核心功能是生成自然且流畅的对话文本，这使它们在客户服务、FAQ自动化回答、营销文案创作等简单任务中表现良好。然而，当面对需要复杂决策和多步骤操作的企业业务流程时，这类模型往往显得力不从心。其核心原因在于，这些模型虽能理解和生成语言，但缺乏对实际业务逻辑和流程的深入理解和执行能力。因而，在企业应用中，大模型很少能直接影响核心业务流程的设计和执行。

业务流程通常包含一系列复杂且高度专业化的决策步骤，需要不仅仅是语言理解，更要有能力对业务数据进行分析和逻辑操作。目前的大模型无法直接与企业的IT系统、数据库等后端服务深度集成，导致其在自动化高价值业务操作时效果有限。而且，企业环境中的业务流程可能会因市场、法规或企业战略的变化而需要快速适应和调整。大模型通常在训练后的适应性有限，对于快速变化的企业环境缺乏足够的灵活性。

要解决这些问题，让大模型的应用走向“深水区”，智能体是一个很有潜力的方向。

何为智能体？OpenAI应用研究主管Lilian Weng提出了：“Agent=LLM+Plan+Memory+Tool Using”的框架，被广泛接受。

AI大模型_自主智能体_企业业务流程-1

根据这个定义，智能体的高级功能不仅限于大模型的语言理解能力，还包括更为复杂的规划、记忆、工具使用和行动执行等能力，这些能力的整合极大地拓展了智能体在企业中的应用范围和效能。

例如，智能体的规划能力指的是能够根据当前情境和预定目标，制定有效的行动策略。这不仅需要理解复杂的任务要求，还需要能够预测可能的结果和制定备选方案；记忆能力使得智能体能够存储和回忆过去的经验，这对于学习新任务和优化现有流程至关重要；智能体的工具使用能力涉及到对各种软件工具和系统的操作，这包括数据分析工具、ERP系统等。这使得智能体能在不同的技术环境中有效工作，自动化复杂的业务流程；智能体的行动执行能力是其将规划转化为实际操作的能力。这不仅仅是简单的任务自动化，更是涉及到根据动态环境调整行动策略和处理突发事件。

整合这些能力的自主智能体，可以在复杂的企业环境中发挥更大的作用，不仅能理解和生成语言，更能主动参与到业务决策和执行中，成为企业运营的核心支持系统，这种智能体的发展标志着人工智能从辅助工具向真正的业务合作伙伴的转变。

为了实现这个目标，智能体也在持续演进当中。

根据其功能和集成深度的不同，智能体的发展可以概括为几个阶段：

1. 初级阶段：单一对话服务。如ChatGPTs，主要提供基础的对话式服务，处理简单的问答和任务，主要依赖直接调用大模型的能力。

2. 中级阶段：工作流编排。如Flow，扩展到一些基础的业务流程自动化，如简单的工作流编排，使用预置的API组件。

3. 高级阶段：自主智能体。如实在智能的TARS Agent，这类智能体结合了自研垂直域大模型和RPA组件，支持复杂的业务流程自动化，能进行高级规划和执行，同时具备操作的可视化和人机协同纠正的功能。

4. 最高级阶段：多智能体协同。这一阶段的智能体能在多模态输入下进行群体协作和复杂指令的执行，具备更高级的数据处理和决策能力。

AI大模型_自主智能体_企业业务流程-2

这些阶段体现了智能体从简单的文本交互，到能够完全自主执行复杂业务流程的演进，显示了技术的成熟和应用领域的拓展。

目前，我们主要处在第三阶段——自主智能的攻坚期，将大模型与RPA、数字员工技术结合，是实现自主智能体深入企业业务流程的有效途径。RPA技术能够自动执行业务流程中的重复任务，如数据输入、文件处理等。通过将大模型的决策支持能力与RPA的执行能力结合，可以极大提升业务流程的自动化水平和效率。

结合RPA、数字员工后，大模型不再仅仅是一个语言处理工具，而是变成了一个全面的业务流程解决方案。这种自主智能体可以根据实时数据和环境变化做出快速决策，并直接操作企业的业务系统执行任务，从而真正实现AI的业务价值最大化。

构建自主智能体，需要哪些核心能力？

上面谈到，自主智能体，是将大模型技术在企业应用落地的一个理想方式。那么，该怎么来构建自主智能体呢，有哪些关键的环节？

构建自主智能体的核心挑战，在于将高度通用的大模型转化为能深入企业特定业务流程的高效工具。这一转变不仅要求模型能够理解和生成语言，更要求其具备深入解析复杂业务逻辑的能力。

具体来看，要构建出上面说得自主智能体，引领数字员工发展，需要具备三方面的核心能力：

1、在通用大模型基础上，微调出业务流程垂直大模型。

在构建针对特定业务流程的垂直大模型时，首先要建立一个包含高质量业务流程数据的领域知识库。这一知识库的目的是为大模型提供必要的行业特定数据，支撑模型更深入地理解业务流程的细节和变量。

接下来，通过在这些专业数据集基础上进行训练微调，将通用大模型定制化，以适应具体业务领域的需求。

需要指出的是，传统的大模型（LLM）主要侧重于对话能力和语义理解，而对于执行具体任务的能力却有所不足。为此，自主智能体的底座应该是Large Action Model（LAM），即大任务或动作模型。LAM经过微调和优化，不仅能理解复杂的业务流程，还能实际操作和完成这些流程，是企业实现自主智能体的关键技术。

例如，实在智能近期推出的实在Agent，其底座模型就是采用了LAM，这赋予了它在执行任务方面的独特优势。通过高质量的业务流程数据集和领域知识库，实在Agent能够深入理解和执行特定领域的业务任务。

2、构建智能屏幕语义理解技术支持下的流程拆解能力。

在构建自主智能体过程中，屏幕语义理解技术和流程拆解是实现业务流程自动化的核心要素。智能体通过自然语言处理技术精确理解用户的意图和需求，这不仅需要捕捉指令的字面意义，还要深入其背后的业务语境。接着，任务分解算法将这些复杂需求细化为具体的操作步骤。这涉及高度复杂的算法，需要确保每个步骤都是逻辑正确且可执行的。智能体需要具备强大的逻辑推理能力以及对业务流程的深刻理解，才能有效完成这项任务。

另一方面，自主智能体通过屏幕语义理解技术，识别并理解桌面应用中的各种界面元素和控件，如按钮、输入框、菜单等。这种识别不仅需要高精度，还要适应界面的动态变化。将屏幕语义理解与任务拆解结合起来，智能体才能确保生成的流程步骤准确映射到相应的功能组件上。这不仅要求智能体理解业务逻辑并将其拆解成对应的操作流程，还需要清楚每一个流程步骤需要操作屏幕上哪一个元素。

3、优化自主智能体对桌面和手机端一切应用的调用与交互能力，完成流程的顺畅执行。

在理解屏幕元素并将流程拆解好之后，接下来最关键的就是将这些流程一步步的执行完。这一过程中，最核心的是自主智能体对桌面和手机端一切应用、工具的调用，并模拟用户操作，与这些应用进行一系列交互，来完成整个流程的执行。

这一过程的核心挑战，在于自主智能体的跨平台调用能力的普适性和适应性，无论是开放API接口的应用，还是没有API接口的传统桌面应用，智能体都能有效调用和操作。智能体必须不断优化其屏幕语义理解技术，以适应不同应用程序版本和用户设置的变化。此外，交互算法的优化也至关重要，以确保智能体能够在各种操作系统和软件环境中稳定运行。

通过这种对应用调用与交互的高度适应性和灵活性，智能体不仅能在不同的业务场景中高效工作，还能帮助企业实现更高水平的自动化和智能化运营。这种能力使智能体成为企业数字化转型中的关键工具，能够显著提升业务流程的效率和准确性。

实在Agent，交出了第一份答卷

上面分析了构建自主智能体所需要具备的一些核心能力，可以看到，这些能力的构建并不容易。那么，现在有企业做出了这样的自主智能体么？实在智能近期推出的实在Agent给了我们一个有益的启示。

AI大模型_自主智能体_企业业务流程-3

具体来看，实在Agent在以下六个方面做了特色：

1. 自然语言理解与对话

实在Agent通过自然语言处理技术，实现了与用户的自然对话式交互，准确捕捉用户的意图，并将其转化为具体的自动化任务。

2. 自动化任务生成与执行

用户只需通过自然语言描述业务流程，实在Agent便能够利用其内置的大模型，精准识别并拆解任务，生成相应的RPA组件。这一过程完全革新了传统RPA流程的设计和编排工作，使得非技术用户也能够轻松地创建自动化任务。

3. 智能屏幕语义理解

智能屏幕语义理解技术是实在Agent的另一大亮点，这项技术赋予了实在Agent强大的屏幕元素识别能力，使其能够在复杂的用户界面中，准确识别出操作元素，如输入框、按钮等。这一功能对于提高自动化任务的准确性至关重要，尤其是在面对动态变化的网页内容或客户端软件时。通过智能屏幕语义理解，实在Agent能够实现更加智能、精准的自动化操作，减少因元素识别错误导致的执行失败，从而提高自动化任务的稳定性和可靠性。

4. 用户界面与交互设计

实在Agent的用户界面与交互设计同样值得称道，它提供了简约直观的用户界面，支持快捷操作，如通过快捷键显示或隐藏常驻窗口，以及通过菜单快速访问各项功能。这种设计不仅提升了用户体验，也使得实在Agent更加易于上手。

AI大模型_自主智能体_企业业务流程-4

5. 异常处理与手动干预

在自动化执行过程中，实在Agent它能够智能识别异常并暂停，允许用户手动介入处理，确保任务正确执行。这种异常处理与手动干预的能力，使得实在Agent在面对复杂多变的业务环境时，依然能够保持高效率和高准确性。

6.越用越好的智能体

随着用户的持续使用，实在Agent不断积累用户数据，更深入地了解用户习惯，从而提供更加个性化、精准的服务。这种自我学习和优化的能力，使得实在Agent不仅仅是一个工具，更是一个能够不断进化和成长的智能伙伴。

这六大功能使得实在Agent成为一个高效、易用且强大的自动化助手，适用于各种业务流程自动化场景。实在Agent的应用场景广泛，无论是财务、客服、电商还是其他业务领域，它都能提供高效的自动化解决方案。例如，在财务领域，实在Agent能够自动完成发票开具、报表导出等工作；在客服领域，它能够识别客户业务诉求，自动录入业务系统，提供7×24小时的服务，这些应用案例充分展示了实在Agent在实际业务中的强大能力。

以招商银行客户的一个应用场景为例，通过与实在Agent对话，即可完成“招商客户端下载交易数据”这个业务流程。用户只需要说出需求，实在Agent即可将这个需求分解为一系列业务流程，并生成对应的流程组件。接下来，实在Agent会一步步的执行相应的流程，并逐步反馈运行状态。最终，完成所有流程组件的运行，得到用户最开始给出的“招商客户端下载交易数据”这个指令的结果。