logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

WebAgent如何压缩上下文?阿里ReSum范式曝光:周期性“历史重置”,打破上下文长度魔咒,实现无限探索!

ReSum旨在解决基于大型语言模型(LLM)的WebAgent在执行长周期搜索任务时遇到的上下文窗口限制问题。ReSum通过周期性地调用摘要工具来压缩不断增长的交互历史,将其转化为紧凑的推理状态,从而实现无限探索。为了使智能体适应这种基于摘要的推理模式,作者们设计了ReSum-GRPO强化学习算法,该算法通过分割长轨迹并广播轨迹级别的优势来进行训练。实验结果表明,与传统的 ReAct 范式相比,R

#人工智能
端侧多模态|谷歌开源Gemma 3n 赋能移动终端全模态智能

Gemma 3n现已在最常用的开源库中全面可用,包括transformers & timm、MLX、llama.cpp(仅限文本输入)、transformers.js、ollama以及Google AI Edge等。此次发布包含了两种模型尺寸,每种尺寸都有基础版(base)和指令跟随版(instruct)两种变体。这些模型的命名遵循非标准约定,分别为和,其中的“E”代表“Effective”(有效

#人工智能
Agent系列:多模态智能体AppAgent v2助力AI手机(简化版)

AppAgent v2 通过灵活的动作空间设计、结构化知识库和强大的探索与部署机制,显著提升了智能体在移动设备上的交互能力和任务执行效率。实验验证了该框架在复杂移动应用场景中的卓越表现,并展示了其在未来智能体研究中的巨大潜力。

文章图片
#人工智能
LLM推理中的强化学习及其实战:以GRPO为例(上篇)

如前所述,原始的RLHF方法使用了一种称为近端策略优化(PPO)的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中,"策略"是指我们想要训练的模型;在这种情况下,策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的,这有助于防止模型进行过大的更新,从而可能使训练不稳定。除此之外,PPO还在损失函数中包含了KL散

#人工智能#DeepSeek
文献阅读笔记:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(T5)

0. 背景机构:谷歌作者: Colin Raffel发布地方:arxiv面向任务:自然语言理解论文地址:https://arxiv.org/abs/1910.10683论文代码:https://github.com/google-research/text-to-text-transfer-transformer0.1 摘要迁移学习已经在NLP领域大显神威,其有效性源于多元化的方法...

#深度学习
RL系列 | RL数据合成的春天!开源Webscale-RL详解

Webscale-RL系统地将万亿级预训练文档转换为数百万个多样化且可验证的问答对,从而使 RL 训练能够达到预训练的规模。研究人员声称,使用 Webscale-RL 数据集进行 RL 训练在各种基准测试中显著优于持续预训练等基线,并且在数据效率方面提高了 100 倍,为开发更强大、更高效的 LLMs 提供了一条途径。该数据合成pipeline通过数据过滤、领域分类、多重“角色”分配和质量检查等步

#人工智能
部署大模型需要多少GPU显存?以DeepSeek R1部署为例

部署大型语言模型(LLM)时究竟需要多少GPU显存?本文将进行一次简单测算。

#人工智能#DeepSeek
微调大模型需要多少GPU显存?

起点估算:全参数微调 (FP16, AdamW): 考虑~20XGB 或更多。LoRA 微调 (FP16): 考虑GB,主要看基础模型2XGB + 激活。QLoRA 微调 (4-bit base, LoRA): 考虑GB,主要看基础模型~0.5XGB + 激活。关键变量batch_size和对激活值影响巨大。如果显存不足,优先减小这两个值,或者加强梯度检查点的使用。梯度检查点: 对于大模型微调(无

#人工智能
模型部署 | VLLM部署Qwen2.5并以OpenAI格式提供API服务

简介为在使用langgraph、langchain等框架的时候可以便捷地以OpenAI兼容的接口格式切换不同大模型接口,包括外部公网API和内部自己部署的API。本文以VLLM部署Qwen2.5为例介绍如何用VLLM以OpenAI兼容的接口格式服务部署大模型服务。

#人工智能
字节开源地表最强GUI Agent:UI-TARS

UI-TARS是一个原生的 GUI Agent模型, 该模型仅以屏幕截图作为输入,并执行类似人类的交互操作(例如,键盘和鼠标操作)。与依赖于经过大量封装的商业模型(例如 GPT-4o)以及专家精心设计的提示和工作流程的现有Agent框架不同,UI-TARS 是一个端到端的模型,其性能超越了这些复杂的框架。实验表明,UI-TARS 在 10 多个 GUI Agent 基准测试中取得了SOTA。

#人工智能
    共 118 条
  • 1
  • 2
  • 3
  • 12
  • 请选择