logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态长期记忆,远没有演示里看上去那么稳!

论文《MemLens》揭示了当前多模态大模型在长期记忆能力上的重大缺陷。研究发现,当移除图片证据时,前沿模型的准确率骤降至2%以下。通过构建包含789个问题的系统性评测基准,作者发现80.4%的问题依赖视觉证据,且现有模型在多轮对话中表现欠佳(准确率低于30%)。研究指出,实用化的多模态助手需要混合架构,而非单纯扩展上下文窗口或外挂记忆库。这项工作为AI系统开发提供了重要启示:真正的挑战在于如何整

文章图片
#人工智能
RiT 这篇论文说明了:图像生成不一定要先在像素里死磕

【摘要】RiT论文提出了一种创新的图像生成方法,通过优化表示空间而非模型架构来提升生成效果。研究发现,DINOv2等表示空间具有更优的几何特性,能显著简化生成任务。该方法采用冻结表示提取器,在合适的表示空间中训练轻量级生成模型,实现了更稳定高效的生成效果。对开发者而言,该研究强调表示空间选择的重要性,表明优化输入空间可能比单纯扩大模型规模更有效;对企业则提供了降低工程成本的新思路,通过合理的空间选

文章图片
#人工智能#github#macos
optimize_anything 把“调参”做成了一个通用接口

【摘要】该研究提出了一种通用API框架"optimize_anything",将分散的优化问题(如智能体架构、CUDA内核、调度策略等)统一转化为文本参数的迭代优化过程。其核心是通过标准化接口实现"评分-反馈-改进"的闭环,使多领域优化任务能在统一后端执行。实验表明多任务协同优化比单任务独立优化效率更高(性能提升20%+),且87%案例达到基准水平。该框架为

文章图片
#人工智能
AI Agent 真能替程序员干活吗?我拿一个真实工单跑完了从读需求到提 PR

AI Agent在真实开发工单中的表现实验表明,它已能承担部分开发流程,但仍需严格验收。实验选取了一个典型工单,涉及接口修复、字段新增、测试补充等任务。AI能准确定位代码、合理修改逻辑并补充测试,但存在边界值处理不足、业务语义测试缺失等问题。结果显示,AI Agent更像一个高效但需严格指导的初级开发者,而非独立负责需求的资深工程师。关键发现包括:明确的任务边界能有效约束AI的过度修改,而验收标准

文章图片
AI Agent 真能替程序员干活吗?我拿一个真实工单跑完了从读需求到提 PR

AI Agent在真实开发工单中的表现实验表明,它已能承担部分开发流程,但仍需严格验收。实验选取了一个典型工单,涉及接口修复、字段新增、测试补充等任务。AI能准确定位代码、合理修改逻辑并补充测试,但存在边界值处理不足、业务语义测试缺失等问题。结果显示,AI Agent更像一个高效但需严格指导的初级开发者,而非独立负责需求的资深工程师。关键发现包括:明确的任务边界能有效约束AI的过度修改,而验收标准

文章图片
多模态长期记忆,远没有演示里看上去那么稳!

论文《MemLens》揭示了当前多模态大模型在长期记忆能力上的重大缺陷。研究发现,当移除图片证据时,前沿模型的准确率骤降至2%以下。通过构建包含789个问题的系统性评测基准,作者发现80.4%的问题依赖视觉证据,且现有模型在多轮对话中表现欠佳(准确率低于30%)。研究指出,实用化的多模态助手需要混合架构,而非单纯扩展上下文窗口或外挂记忆库。这项工作为AI系统开发提供了重要启示:真正的挑战在于如何整

文章图片
#人工智能
RiT 这篇论文说明了:图像生成不一定要先在像素里死磕

【摘要】RiT论文提出了一种创新的图像生成方法,通过优化表示空间而非模型架构来提升生成效果。研究发现,DINOv2等表示空间具有更优的几何特性,能显著简化生成任务。该方法采用冻结表示提取器,在合适的表示空间中训练轻量级生成模型,实现了更稳定高效的生成效果。对开发者而言,该研究强调表示空间选择的重要性,表明优化输入空间可能比单纯扩大模型规模更有效;对企业则提供了降低工程成本的新思路,通过合理的空间选

文章图片
#人工智能#github#macos
optimize_anything 把“调参”做成了一个通用接口

【摘要】该研究提出了一种通用API框架"optimize_anything",将分散的优化问题(如智能体架构、CUDA内核、调度策略等)统一转化为文本参数的迭代优化过程。其核心是通过标准化接口实现"评分-反馈-改进"的闭环,使多领域优化任务能在统一后端执行。实验表明多任务协同优化比单任务独立优化效率更高(性能提升20%+),且87%案例达到基准水平。该框架为

文章图片
#人工智能
多模态记忆现在还远没到能放心托付的时候

【研究速览】MemLens基准测试揭示多模态大模型的长期记忆短板 当前多模态大模型(LVLM)常标榜长期记忆能力,但MemLens研究团队通过系统化测试(覆盖589个跨会话、图像细节、时序推理等任务)发现:多数模型依赖文本提示红利,真实视觉记忆性能被严重高估。研究创新性对比了长上下文模型与外挂记忆代理,暴露两者在信息压缩与证据追溯上的固有缺陷。关键结论指出,可靠的多模态记忆需分层设计视觉证据、会话

文章图片
#计算机视觉#人工智能
从推理链到可验证子问题,强化学习终于开始学会“怎么分锅”

摘要(150字) 本研究提出一种基于课程强化学习的方法,通过将复杂推理链拆解为可验证的子问题,解决大语言模型(LLM)推理中的信用分配难题。传统强化学习仅依赖最终答案的稀疏奖励,导致模型难以识别中间步骤的贡献。作者引入细粒度验证机制,将奖励精准分配至关键推理子步骤,并结合课程学习策略,逐步提升模型从局部到全局的推理能力。实验表明,该方法在数学推理任务中显著提升模型表现,尤其擅长长链复杂问题。其核心

文章图片
#人工智能#深度学习#机器学习
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择