发布日期:2026-01-02 12:03 点击次数:98
只需一次东说念主类示范开云体育(中国)官方网站,就能让智能体相宜新环境?
来自杭州电子科技大学和浙江大学的策划者,暴戾了一套新的智能体框架AutoManual。
该策划有用惩处了智能体过度依赖东说念主类内行提供的学问,难以自主相宜新环境的问题。

通过效法东说念主类意志天下"记札记"的过程,AutoManual 不错让智能体实践任务得胜率高达97%。
不仅如斯,智能体在过程中学习的训导还不错供东说念主类阅读,以致给其他智能体提供谋略指挥。
现存智能体对东说念主类依赖较大
当今,基于诳言语模子的智能体(LLM Agents)展现出重大的后劲,简略自主完成各个边界的任务,如机器东说念主谋略、游戏扮装贬抑与网站导航。

△AgentBench: Evaluating LLMs as Agents.Xiao Liu ( THU ) et al. arXiv.
但是,这些智能体常常是为特定环境和特定任务假想的。
要是咱们分析一个 LLM Agent 的系统教唆词(System Prompts),会发现它常常由这五个部分构成:
扮装神情;
可供使用的动作函数;
输出花式;
罕见拓荒或条件;
东说念主类内行的示例。
关于新的环境,其中的前三项不错笔据新环境对已有模板作念调遣后很快速地界说好;
但关于后两项教唆词,会需要东说念主工汇总环境学问,并不断调试这些教唆,以及准备多个东说念主类内行示例,才略使 LLM Agent 在新环境中顺畅运行。
那么,是否能让智能体我方从环境交互中学习这些学问呢?
已有的一些职责使用自我反想 self-reflection 或技术库 skill library,来让智能体在交互中自我进步,部分缓解了对东说念主工的依赖。
但是,这些反想和技术并莫得用于对环境变成深切的贯串,即贯串环境的学问或机制。
因此,径直使用训导中的技术来四肢大模子的高下文示例,容易变成旅途依赖。
从东说念主类意志天下过程获取灵感
AutoManual 框架有用地惩处这一穷困,其策划者从东说念主类意志天下的过程中获取了灵感——
迎面临目生的环境时,东说念主类和会过探索发现、记载与更新自己的贯串来逐渐意志到新环境的划定;
而且,东说念主类不错将我方的贯串整理出来,以文本的花式传授给他东说念主。
AutoManual 就效仿了这种过程来记载和更新 LLM Agent 对环境的贯串。
最终,AutoManual 框架将生成的一册指挥手册,不仅不错提高智能体对新环境的相宜性,还不错为较小的模子的谋略提供指挥,况兼易于东说念主类阅读。
仅需一个东说念主类演示,AutoManual 便在机器东说念主谋略环境 ALFWorld 将智能体的得胜率提高到97%,在网站导航环境 MiniWoB++ 上的任务得胜率则达到98%。
具体来说,AutoManual 框架举座由三个阶段构成:
Building 阶段:Planner Agent 与 Builder Agent 相助从环境的交互中构建出一系列的划定。当划定跨越最大贬抑时,Consolidator Agent 将归并或删除冗余的划定;
Formulating 阶段:Formulator Agent 将划定制定成一个 Markdown 花式的指挥手册;
Testing 阶段:将指挥手册提供给测试时的 Planner Agent,来评估扫尾。

△AutoManual 框架总览
最初在 Building 阶段,策划者受在线强化学习的启发,使用了两个轮流的迭代过程来构建环境划定:
基于现时划定,Planner Agent 与环境进行一轮交互;
Builder Agent 笔据该交互轨迹使用划定系统来更新划定。
与传统强化学习比较,基于文本的划定经管取代了样本服从低下的参数优化。
具体而言,关于 Planner Agent,策划者采选 Python 代码来暗示的可实践的策画,这是因为已有职责标明使用代码四肢输出能有用进步 LLM Agent 扫尾。
在每一轮的脱手,Planner 的输入为当今已知的划定,技术库或反想库中有关的案例,现时的任务与运行不雅测。
而每次 Planner 的输出分为四个部分:
对现时不雅测的分析;
有关划定的解读;
总体策画;
一个辨别为多个步调的 Python 代码块。
然后,代码将在环境中实践,并得到响应与新的不雅察扫尾。
在这一整轮结束时,笔据任务是否得胜,扫尾不错分为三种情况:Direct Success、Indirect Success(发生诞妄但稍后惩处)和 Failure。
关于不轸恤况,教唆 Planner 相应地汇总技术代码或反想,而这些技术和反想会存入技术库或反想库来扶助后续的任务完成。

△Planner Agent 与环境进行交互变成 Trajectory 的过程
关于 Builder Agent,其将笔据 Planner 这轮的轨迹,使用划定系统的器具函数来编写和更新划定。
为了促进划定经管,策划者引入了一个结构化的划定系统,划定系统中的每个划定齐具有以下四个属性:
划定的类型(分为了 6 种划定);
划定的本色;
划定的示例;
考证日记。
但是,策划者发现 Builder Agent 在面临这种结构化的划定系统时,有期间会出现幻觉,举例从失败的轨迹中得出得胜训导的划定。
为了裁减诞妄创建划定的风险,策划者对 Builder 采选了case-conditioned prompting 计谋:
Builder 最初需要分析并细则主要诞妄的起原为" Imperfect Rules "或" Imperfect Agents ",然后相应的针对性的教唆会指挥 Builder 进行划定经管。

△Case-Conditioned Prompting 计谋示例
在 Building 阶段结束后,Formulating 阶段的策画是增强划定的可读性和全局贯串。
因此,作家选拔引入 Formulator Agent 对划定自动进行分类,归来每类的关节点,并以 Markdown 的花式将它们制定成一册指挥手册。
只需一个东说念主类示例
为了测试 AutoManual 框架的扫尾,策划团队在三个闻名的交互式环境中进行了实验:
ALFWorld,一个家用机器东说念主的诬捏环境,提供了基于文本的交互花式;
MiniWoB++,一个模拟 Web 环境,智能体通过实践键盘和鼠标操作在网页上完成多样任务;
WebArena,一个传神的 Web 环境,复制了实验的 Reddit 网站的功能和数据。
在 Building 和 Formulating 阶段,扫数 Agent 齐配备了 GPT-4-turbo (gpt-4-1106-preview)。
在 Testing 阶段,Planner Agent 将配备 GPT-4-turbo 或 GPT-3.5-turbo,来评估生成的手册是否不错指挥较小的模子。
从 ALFWorld 任务的扫尾中不错看出,AutoManual 需要很少的环境有关的内行先验学问,只提供一个东说念主类示例即可获取相等出色的扫尾。

而关于另外两个 Web 环境的扫尾,也不错得出疏导的论断。

此外,AutoManual 生成的 Markdown 手册对东说念主类阅读也很友好。
通过分析 AutoManual 生成的手册,不错看到其发现了很多有兴味的环境划定。
比如在 rule_2,类型为" Special Phenomena "的划定中说:
当使用微波炉时,即使内部有另一个物体,智能体拿着什么东西,况兼莫得明确提到微波门是翻开的,智能体也不错与它互动(举例,加热一个物体)。然后其举了一个例子,是在 epoch_1 中的资格。
还有在 rule_3 中说:
Agent 一次只可捏有一个物体,况兼必须在拿走另一个物体之前放下任何捏有的物体。
因此,AutoManual 通过更深切地挖掘机制、更新和整合得胜历程以及郑重蹙迫细节来惩处只使用技术的旅途依赖问题。

△ALFWorld 环境中 AutoManual 生成的 Markdown 手册作家简介
该论文由杭州电子科技大学和浙江大学等相助完成。
第一作家陈铭浩,现任杭州电子科技大学诡计机学院特聘副教悔,博士毕业于浙江大学 CAD&CG 国度重心实验室。

论文邻接:https://arxiv.org/abs/2405.16247
GitHub 地址:https://github.com/minghchen/automanual
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 名目主页邻接,以及关系花式哦
咱们会(尽量)实时回应你

点这里� � 和顺我,记起标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿确认日日重逢 ~
Powered by 开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群 © 2013-2024