logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[论文阅读] AI + 软件工程 | 谁是最佳AI编码助手?5款主流工具的任务分层实证研究揭晓

AI编码助手的快速普及正在重塑软件工程实践,但不同代理在不同任务类型和时间维度的有效性对比仍较为缺乏。本文通过分析AIDev数据集中7156个拉取请求(PR),对OpenAI Codex、GitHub Copilot、Devin、Cursor和Claude Code五款主流代理开展实证研究。时间趋势分析显示代理演变模式存在异质性:Devin是唯一呈现PR接受率持续正向增长的代理(32周内每周+0.

文章图片
#论文阅读#人工智能#软件工程
[论文阅读] AI + 软件工程 | 34.43%性能提升!TraceCoder解锁LLM生成代码自动化调试新范式

大语言模型(LLMs)生成的代码常含隐性关键缺陷,现有自动化修复方法依赖二值反馈,故障定位模糊且无法从失败中学习,易陷入低效循环。为此提出迹驱动多智能体框架TraceCoder,模拟人类专家调试流程:通过插装智能体捕获细粒度运行时迹,分析智能体做因果故障分析,修复智能体执行靶向修复;结合历史经验学习机制(HLLM)避免重复错误,回滚机制(RM)保证修复稳定收敛。多基准实验表明,TraceCoder

文章图片
#论文阅读#人工智能#软件工程
[论文阅读] 人工智能 + 软件工程 | 用大语言模型架起软件需求形式化的桥梁

本文深度解读了利用大语言模型(LLMs)辅助软件需求形式化的最新研究进展,揭示了传统自然语言需求存在的歧义性与形式化验证的高门槛问题。通过系统综述35篇核心文献,分析了LLM在断言生成、规范合成、需求验证等场景的应用方法,提出提示工程优化、神经符号融合等未来方向,为理解LLM在软件工程中的前沿应用提供了清晰框架。

文章图片
#人工智能#论文阅读#软件工程
[论文阅读] AI | 用机器学习给深度学习库“体检”:大幅提升测试效率的新思路

TensorFlow、PyTorch等深度学习库因设计复杂易存在bug,现有模糊测试工具的输入有效率极低。本文提出利用机器学习分类器判断API输入有效性,核心是以张量形状为抽象特征编码输入,通过随机和成对策略生成标注数据集,基于AutoGluon训练模型。实验针对183个API展开,结果显示分类器在未见过数据上准确率超91%;集成到ACETest工具后,有效输入通过率从29%提升至61%,且不影响

文章图片
#人工智能#论文阅读#机器学习
[论文阅读] AI + 软件工程 | 突破LLM代码生成瓶颈:编程知识图谱(PKG)让检索增强更精准

大语言模型(LLMs)在代码生成任务中表现优异,但面对复杂问题时仍受限于外部知识缺失。检索增强生成(RAG)虽能整合外部知识,却存在检索不精准、生成易幻觉等问题。本文提出编程知识图谱(PKG),用于代码和文本的语义表示与细粒度检索。该方法通过树剪枝提升检索精度,借助重排序机制融合非RAG解决方案以减少幻觉,并将外部数据拆分为细粒度节点以优化检索粒度。在HumanEval和MBPP基准上的评估显示,

文章图片
#人工智能#论文阅读#软件工程
[论文阅读] AI | TOFU-D与COD:两款Dialogflow聊天机器人数据集,为质量与安全研究赋能

近年来,任务型聊天机器人应用广泛,但大规模精选数据集的缺失限制了其质量与安全研究。本文提出TOFU-D和COD两个数据集:TOFU-D是来自GitHub的1788个Dialogflow聊天机器人快照,COD是从中筛选的185个验证样本。两个数据集覆盖多领域、多语言和多实现模式。通过Botium测试框架和Bandit静态分析工具的初步评估,发现聊天机器人存在测试覆盖缺口和安全漏洞,凸显了多平台系统性

文章图片
#论文阅读#人工智能#机器人
[论文阅读] AI | TOFU-D与COD:两款Dialogflow聊天机器人数据集,为质量与安全研究赋能

近年来,任务型聊天机器人应用广泛,但大规模精选数据集的缺失限制了其质量与安全研究。本文提出TOFU-D和COD两个数据集:TOFU-D是来自GitHub的1788个Dialogflow聊天机器人快照,COD是从中筛选的185个验证样本。两个数据集覆盖多领域、多语言和多实现模式。通过Botium测试框架和Bandit静态分析工具的初步评估,发现聊天机器人存在测试覆盖缺口和安全漏洞,凸显了多平台系统性

文章图片
#论文阅读#人工智能#机器人
[论文阅读] AI + 软件工程 | 4万+PR实证分析:揭秘影响人机代码合并的关键因素

AI自动生成Pull Request(PR)日益普及,但合并率低于人工PR。本文基于AIDev数据集的40214个PR样本,提取6大类别64个特征,构建逻辑回归模型对比人机PR及不同AI智能体PR的合并影响因素。研究发现:提交者属性对两类PR的合并结果起主导作用;评审活动对人工PR合并有正向影响,对AI PR则为负向;不同AI智能体的PR合并特征存在显著差异。本文的模型预测性能优异,结论为优化人机

文章图片
#论文阅读#人工智能#软件工程
[论文阅读] AI + 软件工程 | RubberDuckBench横空出世!20个LLM编码助手大测评,幻觉率竟高达58.3%

程序员越来越依赖AI编码助手解答代码相关问题,但现有基准无法有效评估这类上下文相关问答功能。为此,本文提出RubberDuckBench:一个源自GitHub拉取请求评论的多语言基准,包含15个上下文代码问题及详细评分准则。通过对20个LLM(含专有和开源模型)的评估发现,即使顶尖模型也无法持续给出正确答案,Grok 4(69.29%)、Claude Opus 4(68.53%)和GPT-5(67

文章图片
#论文阅读#人工智能#软件工程
[论文阅读] AI + 软件工程 | 突破AAA游戏测试瓶颈!选择性插桩让代码覆盖“轻装上阵”

代码覆盖是测试的重要指导,但在3A游戏中,插桩带来的开销与严格的性能要求冲突,还会破坏自动化测试稳定性。本文提出并评估了一种针对大型C++游戏引擎的选择性插桩方案,在保留提交相关覆盖数据的同时缩小插桩范围。该框架集成到工业级游戏测试流水线,能为开发者提供即时覆盖反馈。其编译开销极小,可支持2000次提交插桩而编译时间不翻倍;运行时最坏情况下帧率仍保持在非插桩基准的50%以上;在两个生产测试套件中未

文章图片
#论文阅读#软件工程#游戏
    共 282 条
  • 1
  • 2
  • 3
  • 29
  • 请选择