logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【论文精读】SafeAgentBench:具身大语言模型智能体安全任务规划的基准测试

​随着大语言模型(LLMs)的融入,具身智能体具备了强大的能力来执行复杂的自然语言指令,这为具身机器人的潜在部署铺平了道路。然而,一个可预见的问题是,这些具身智能体也可能完美地执行一些危险任务,从而在现实世界中造成损害。为了研究这个问题,我们提出了 SafeAgentBench,这是一个用于评估具身大语言模型智能体安全任务规划能力的新基准。SafeAgentBench 包括:(1)一个包含 750

文章图片
#语言模型#安全#人工智能
【论文精读】SafeAgentBench:具身大语言模型智能体安全任务规划的基准测试

​随着大语言模型(LLMs)的融入,具身智能体具备了强大的能力来执行复杂的自然语言指令,这为具身机器人的潜在部署铺平了道路。然而,一个可预见的问题是,这些具身智能体也可能完美地执行一些危险任务,从而在现实世界中造成损害。为了研究这个问题,我们提出了 SafeAgentBench,这是一个用于评估具身大语言模型智能体安全任务规划能力的新基准。SafeAgentBench 包括:(1)一个包含 750

文章图片
#语言模型#安全#人工智能
到底了