软件工程师罗小东,拥有多年架构和平台设计经验,目前专注于平台与新技术的融合研究。
前言
通用智能体是开源AIP项目上进行的探索,这里是近段时间输出1.0初版本设计,另外所谓通用的意思不会约束在某一个场景上面。
概述
单智能体的限制还有chatbot的限制,这里主要参考扣子空间,OpenManus等设计。

原则依然是针对于业务深入,针对的是中小团队场景,私有数据和大模型结合,设计思路如下:
- 结果型交付,需要结合业务有真实可用的输出
- 结合内部真实场景,不要娱乐型AI,结果可用
- 中小团队都能内部部署,低成本运作
- 可以切换不同场景,多Agent通用场景和业务型场景
- 过程还可以修改,可控还有进一步调整
- …
执行过程通过规划-推理-执行-总结-结果这个流程,推理主要是使用ReAct设计,每个设计是思路不一,我有我思,也期望有兴趣的同学可以交流。
输出效果
我们可以来看看输出的规划文档输出效果,这里以一份短视频营销输出文档为示例(非内部数据):

这里是数据分析输出的效果,结合内部数据直接导入分析的(内部数据库):

还有网页版本的数据分析结果,这里会有比较直观的图形分析:

网页版本的分析展示在一定程度上效果较好,但是内容结构相对于Word版本来说,展示还需要进一步的提升。
产品设计
以下为产品设计思路。
交付型结果
出来的结果需要达到可用或是结合业务的,这里直接链接的内部数据资产平台,直接提供查询和全文检索:

以下为输出的电商数据分析例子:

整体效果内容较为丰满,如果有不同的要求,输出的内容方向,也会有不同的结果,这里是AI默认生成。
低成本部署和落地
考虑到低成本,中小团队可以内部私有化,去掉了虚拟机或是其它不一定需要的工具,在一些场景上可能无法实现,比如浏览器RPA操作。
考虑到稳定性,这里数据检索,我们通过数据资产套件来处理,另外结合搜索引擎网络数据检索来实现。

下面是数据抽取的简单流程:

实时部分我们通过Chatbot来做显示进度还有运行情况,如下图:

这样也可以显示效果,我们发现也是可以满足场景需求。
多Agent多业务场景
我们之前研究看到的,类似Manus,它的Agent协作是固定的,这些在输出结果精度,幻觉,检索等方面需要较高技术难度,内容可能不够聚焦。

在这里我们设计场景Agent可以自定义选择,每个场景,有专门的Agent有自己行业的知识库等,使得Agent还有结果聚焦在这个业务场景上面。
通过多种Agent的选择和自定义,我们可以灵活的选择和搭配不同的智能体能力。
结果可控可修改
我们需要规划的结果可以修改,每个规划阶段过程也可以修改,以下为整体的设计界面:

左边的规划结果是可以调整修改还有重新生成结果的,内容也可以编辑,达到更优的结果。

以下为输出的指定Agent来做报表输出,也可以不同场景切换不同的Agent来做输出:

报表输出的结果显示也是由AI生成,每个显示结果和报表都做了二次设计和定义不同的指令。
总结
以上为在通用场景上的研究情况,有一定惊艳的效果,主要是让我们的AI设计往交付行结果走了一步,前期跟客户进一步沟通的情况,假如说大家的设计架构是一样的,其它的就是Agent数据资产的优劣程度,数据质量的高低,行业数据资产和AI这部分将是我们下一步深入探索的部分。有兴趣的同学也可以交流。