logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

正如作者所言——当前LLM在软件工程中的应用正处于「黄金发展期」,但真正能驱动其走向工业落地、提升工程可信度的,是那些更真实、更多维、更动态的Benchmark体系。这项研究不仅填补了LLM软件工程评估的综述空白,也为AI4SE研究者、开发者和企业提供了清晰的「下一步方向」。如果说模型是「马达」,Benchmark就是「方向盘」。谁能把握住它,谁就能在AI软件工程的未来之路上走得更远。

文章图片
#需求分析#人工智能
We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系

随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理,数学推理也得到了一定提升。然而,在逻辑性与知识系统性要求极高的数学任务中,模型仍然达不到像人类一样进行严密推理的水平,这一问题仍然是开放性难题。本文作者来自北京邮电大学、腾讯微信、清华大学。共同第一作者为北京邮电大学博士生乔润祺与硕士生谭秋纳,其共同完成的代表性工作 We-Math 于 ACL 2025 发表,并曾在

文章图片
#人工智能
刚刚,全球AI百强榜发布!ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国

a16z最新发布「全球Top100消费级GenAI应用榜单」,AI竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领跑,谷歌Gemini紧随其后,Grok高速逆袭。整体来看,全球AI正进入多极化竞争的新阶段。就在刚刚,a16z最新一期的「Top 100消费级GenAI应用榜单」出炉!本期榜单传递出一个最核心信息:AI产品竞争的生态格局正日趋稳定

文章图片
#人工智能
专治智能体盲跑!微软发布AI Agent 五大可观测性,打通任督二脉

简单来说,智能体可观测性就是对智能体从基础开发、测试、部署到后期维护运营全生命周的工作原理、决策、结果进行深度监测,帮助它们纠正各种错误实现更强、安全的自动化业务流程。主要有以下好处:持续监控:实时跟踪智能体行为、决策和互动,以发现异常、意外行为或性能漂移。例如,企业客服AI智能体,正常情况下会优先回复未读消息,但监控时发现它突然频繁重复发送相同内容,或响应延迟从2秒飙升到10秒,系统会立即预警,

文章图片
#人工智能#microsoft#大数据
聊聊大模型推理系统之 Arrow:自适应调度实现请求吞吐提升7.78倍背后的三大创新

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径,也能实时重配计算实例的角色。研究团队发现,现实中的 LLM 请求在输入和输出长度上存在巨大波动,导致传统固定比例的 Prefill(填充)与 Decode(解码)节点配置极易失衡。在大模型(LLM)推理服务中,如何在论文链接见文末。

文章图片
#人工智能
从LangChain到LangGraph:AI智能体提示词工程的系统化学习

AI 代理的世界正在迅速扩展,掌握 LangChain 和 LangGraph 的提示工程让你站在这场革命的前沿。无论你是打造客服机器人、内容创建系统还是复杂分析工具,这些框架为你创建真正智能的应用提供了基础。AI 的世界正在飞速演变,从简单的问答系统升级成了复杂、多步骤推理的智能代理。不管你是想打造客服机器人、数据分析工具,还是复杂的自动化工作流程,掌握 LangChain 和 LangGrap

#人工智能#学习
ChatGPT后遗症来了!人类日常聊天越来越AI化

佛罗里达州立大学的研究团队花了两年时间,分析了ChatGPT发布前后的非脚本化口语录音,在2210万个词的数据集中发现像“delve”、“intricate”这些学术写作词高频出现在人们日常说话中。和AI聊了两年多,人类说话ChatGPT味越来越重了?最新研究结果显示,还真是。佛罗里达州立大学的研究团队花了两年时间,分析了ChatGPT发布前后的非脚本化口语录音,在2210万个词的数据集中发现像“

#人工智能
强化预训练(RPT):LLM 预训练新范式,当模型学会战略思考

具体生成算法如下:1.初始化:以输入序列为起点,模型首先对上下文进行编码,提取关键语义信息。这一步骤就像人类在阅读一篇文章时,先快速浏览开头部分,对文章的主题和大致方向有一个初步的把握。例如,当输入的上下文是关于物理定律的描述时,模型会识别出其中涉及的物理概念、定律的名称等关键信息,为后续的推理和预测奠定基础。2.迭代推理:在每一步推理中,模型基于当前上下文和已生成的推理序列,生成下一个推理 to

#人工智能#机器学习
AI秒懂短视频,快手大模型Keye-VL理解力爆表!技术细节全开源

全新多模态大语言模型Kwai Keye-VL震撼上线,展现了无与伦比的视频理解力!它能将视频内容转化为高能方案,还会智能选择思考模型,效率与创意兼得。目前,模型已正式开源。如果有人突然问你:「这张图片中有几颗草莓」?你会如何快速回复?面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得到答案。

#人工智能
MM-LLM 数据侧论文速读

本文探讨多模态数据集构建与质量评估方法。DataComp提出了基于CommonCrawl的128亿图像文本对处理流程,包含NSFW检测、去重等步骤。LLaVA通过GPT-4生成三类指导数据(对话、详细描述、复杂推理),并改进模型架构提升多模态能力。研究提出VAS指标评估数据信息量,强调在CLIP初筛后进行精细选择。比较了不同过滤方法的效果,并探讨如何利用GPT-4Vision生成更全面的图像描述。

#人工智能#计算机视觉#深度学习
    共 269 条
  • 1
  • 2
  • 3
  • 27
  • 请选择