WebAgent-基于大型语言模型的代理程序
(资料图片)
大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近,LLM在自主网络导航方面也取得了巨大成功,代理程序助HTML理解和多步推理的能力,通过控制计算机或浏览互联网进行一系列计算机操作,以满足给定的自然语言指令。
然而,现实世界的网站上的网络导航仍然存在以下问题:
(1)缺乏预定义的操作空间。
(2)HTML观察比模拟器更长。
(3)LLM缺乏HTML领域知识。
考虑到现实世界网站的开放性和指令的复杂性,提前定义适当的操作空间是具有挑战性的。此外,尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性,但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短,并且没有采用特定的HTML领域知识。
针对上述问题,研究人员引入了WebAgent,这是一个由LLM驱动的代理程序,可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划,将长HTML文档转化为与任务相关的片段,并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent:Flan-U-PaLM用于基于代码的生成,以及新引入的HTML-T5(一种新型预训练LLM),用于规划和摘要本地长HTML文档。
通过实验证明,该方法可以提高在现实网站上的成功率50%以上,并且HTML-T5是目前解决基于HTML任务的最佳模型;在MiniWoB网络导航基准测试中,其成功率比之前最先进的方法高出%,并且在离线任务规划评估上也具有更好的准确性。
关键词:
相关阅读
-
WebAgent-基于大型语言模型的代理程序
大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑 -
液体聚合氯化铝商品报价动态(2023-07-30)
交易商品牌 产地交货地最新报价聚合氯化铝 液体PAC;含量≥10%河南豫 -
7月31号开始财运爆发,财路找上门,3生...
7月31号开始,属相龙运势枯树开花,运势逆袭,收入涨横财多,美好的人 -
九寨沟导游被曝放狠话要求购物,称上车...
7月30日,南都记者注意到,有网友发布视频称,其去四川九寨沟旅游时, -
郭言:“去风险”威胁全球产业链稳定
近来,美西方一些政客把“脱钩论”改头换面,炮制出“去风险”论调... -
牛脆骨的营养价值表(牛脆骨的营养价值)
脆骨的营养价值表,牛脆骨的营养价值这个问题很多朋友还不知道,来为大
精彩放送
-
WebAgent-基于大型语言模型的代理程序
大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑 -
液体聚合氯化铝商品报价动态(2023-07-30)
交易商品牌 产地交货地最新报价聚合氯化铝 液体PAC;含量≥10%河南豫 -
7月31号开始财运爆发,财路找上门,3生...
7月31号开始,属相龙运势枯树开花,运势逆袭,收入涨横财多,美好的人 -
九寨沟导游被曝放狠话要求购物,称上车...
7月30日,南都记者注意到,有网友发布视频称,其去四川九寨沟旅游时, -
郭言:“去风险”威胁全球产业链稳定
近来,美西方一些政客把“脱钩论”改头换面,炮制出“去风险”论调... -
牛脆骨的营养价值表(牛脆骨的营养价值)
脆骨的营养价值表,牛脆骨的营养价值这个问题很多朋友还不知道,来为大 -
一卡等于多少焦耳怎么算_一卡等于多少焦耳
1英热单位=1 06千焦耳1卡=4千焦耳1千焦耳=0 23卡1撒姆=106兆焦耳1度=36 -
“强国复兴有我”主题志愿服务活动山东...
28日,由中宣部志愿服务促进中心、中国志愿服务联合会主办的“强国... -
9400f配什么主板(9400f需要几相供电)
9400ftdp才65W,按主流的供电方案来看的话,5项供电已经绰绰有余。i594 -
沙塔尔天空卫队声望怎么刷最快 沙塔尔...
1、这个声望的营地是两个的一个是泰罗卡森林的斯克提斯有两个日常另一