
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
BeaverTails数据集:大模型安全对齐的关键资源与实战应用
BeaverTails是一个专注于大模型安全对齐的开源数据集,由清华大学和蒙特利尔大学联合发布。该数据集包含超过330,000条人工标注的数据,覆盖安全相关问题和无害回复,旨在帮助开发者训练和评估模型的安全对齐能力。数据涵盖隐私、歧视、非法活动等敏感话题,并提供安全等级标注(如安全、不安全、边界情况)。数据集的核心价值在于其多维度标注体系,包括:- 问题类型(如隐私、暴力)- 安全等级(0-2分)
到底了







