logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型生成代码的自动化质量验证

第二种方法, 虽然自动化程度高, 依赖的资源不多(只需要一份标准答案), 但因为借助的是近似指标的关系, 无法保证在指标上表现理想的模型,在功能上也能真正符合预期。从下例可以看出,明明模型生成的代码给出的答案和正例是完全相反的,但是code-bleu得分却接近1(满分),这显然是不合理的。它能自动化检査生成代码的质量,无需手动编写测试用例。近年来大模型彻底颠覆了学界里AI的研究方向,基于大模型的各

文章图片
#自动化#运维
大模型生成代码的自动化质量验证

第二种方法, 虽然自动化程度高, 依赖的资源不多(只需要一份标准答案), 但因为借助的是近似指标的关系, 无法保证在指标上表现理想的模型,在功能上也能真正符合预期。从下例可以看出,明明模型生成的代码给出的答案和正例是完全相反的,但是code-bleu得分却接近1(满分),这显然是不合理的。它能自动化检査生成代码的质量,无需手动编写测试用例。近年来大模型彻底颠覆了学界里AI的研究方向,基于大模型的各

文章图片
#自动化#运维
大模型生成代码的自动化质量验证

第二种方法, 虽然自动化程度高, 依赖的资源不多(只需要一份标准答案), 但因为借助的是近似指标的关系, 无法保证在指标上表现理想的模型,在功能上也能真正符合预期。从下例可以看出,明明模型生成的代码给出的答案和正例是完全相反的,但是code-bleu得分却接近1(满分),这显然是不合理的。它能自动化检査生成代码的质量,无需手动编写测试用例。近年来大模型彻底颠覆了学界里AI的研究方向,基于大模型的各

文章图片
#自动化#运维
到底了