logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

您的智能测试助理来了!蚂蚁TestAgent开源,快来体验!

TestAgent旨在构建测试领域的“智能体”,融合大模型和质量领域工程化技术,促进质量技术代系升级。我们期望和社区成员一起合作,打造创新的测试领域解决方案,构建24小时在线的测试助理服务,让测试如丝般顺滑。很高兴地宣布,我们在国内首次开源了测试行业大模型及工具——TestAgent。本次版本包含了性能最强的7B测试领域大模型,以及配套的本地模型快速发布和体验工程化框架,欢迎体验和关注!

文章图片
#AIGC
DevOps-Eval:蚂蚁集团联合北京大学发布首个面向DevOps领域的大语言模型评测基准!

其中,dev数据集包含5个带有标签和解析的样例,用于few-shot评测;日志中包含了"Cannot open channel to <*> at election address /<*>:<*>"和"******* GOODBYE /<*>:<*> ********"这两个固定的模板片段,它们都在选项D中出现了。如下图所示,5-shot的结果要稍好于0-shot,其中DevOpsPal-14B

文章图片
#devops#语言模型#运维
DevOps-Model:面向DevOps领域的大语言模型现已开源

DevOps-Model 是蚂蚁集团联合北京大学发布面向中文 DevOps 领域的大语言模型,通过收集 DevOps 领域相关的专业数据,再针对模型进行语言模型的加训和对齐训练,产出可以帮助工程师在整个开发运维生命周期提效的大模型。弥补当前大模型在 DevOps 领域的缺失,旨在做到有问题,问 DevOps-Model!当前我们已经开源了 7B 和 14B 两种规格的经过加训得 Base 模型和经

文章图片
#devops#语言模型#开源
新时代的程序员,已经在用大模型写代码了

咔哒”,“咔哒”。悟鸣在键盘上输入一个关键词,后面马上自动浮现出他接下来要输入的代码。他快速地扫了一眼,感觉没什么问题,按下“Tab”键,代码从灰色变成正常,代表这些代码被采纳,成为他所编写代码的一部分。这是他近段时间写代码的常见场景。自动浮现出的代码来自于 AI 的预测,而这种神奇的能力,就来自于近来越来越火的生成式 AI(AIGC),只不过他所用的智能工具,属于程序员专用,是 AIGC 在研发

文章图片
#语言模型
2024年代码大模型论文精选第五期

​引言本文整理 2024 年 9 月至 10 月中旬全球各大高校与科研机构发布的 70 篇代码大模型相关论文。根据论文内容,我们将这些论文整理为了基座模型、代码微调、测试基准、代码 Agent、代码与大模型推理、代码生成、SQL 生成、代码 embedding、漏洞检测与修复等主题。全文篇幅较长,建议电脑端阅读。若您想了解其他时期的代码大模型论文,也欢迎关注我们的代码大模型综述TMLR)和 Git

文章图片
#语言模型#AIGC#人工智能 +2
CodeFuseEval : 代码类大模型多任务评估基准

代码领域作为自然语言大模型的一个垂类,除去NLP通用的一些技术能力评估、模型认知评估和安全可信评估外,对编码领域自身,需针对性评估模型自身在技术能力层面的表现,如不同类型代码生成能力、上下文或计算机知识的理解能力,以及在对外服务能力层面的表现,如服务体验、稳定性、开放性等。附:编码垂类评估内容示意图如下图,针对代码生成类和理解类的2个效果截图示例(代码补全和添加注释),在这2大类下会有一些技术能力

文章图片
#人工智能
2024年5月90篇代码大模型论文最全整理

本文整理了 2024 年 5 月发布的 90 篇代码大模型相关论文,其中包括 17 篇发表在今年 ICLR 的论文

文章图片
#人工智能#开源
OpAgent:登顶WebArena的多模态Web Agent

蚂蚁集团自研多模态Web智能体OpAgent,以71.6%的成功率登顶WebArena榜单。该方案通过层次化多任务微调构建基座,利用在线强化学习与混合奖励机制应对环境动态性,并结合模块化架构实现复杂任务的稳健执行与自我修正,刷新了Web智能体领域的SOTA纪录。

文章图片
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择