logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM端侧部署系列 | 如何将阿里千问大模型Qwen部署到手机上?环境安装及其配置(上篇)

引言下载待部署模型安装minconda安装tvm和mlc-llm安装 JDK安装 Android SDK下载mlc-llm仓库设置环境变量安装Rust。

文章图片
WebAgent如何压缩上下文?阿里ReSum范式曝光:周期性“历史重置”,打破上下文长度魔咒,实现无限探索!

ReSum旨在解决基于大型语言模型(LLM)的WebAgent在执行长周期搜索任务时遇到的上下文窗口限制问题。ReSum通过周期性地调用摘要工具来压缩不断增长的交互历史,将其转化为紧凑的推理状态,从而实现无限探索。为了使智能体适应这种基于摘要的推理模式,作者们设计了ReSum-GRPO强化学习算法,该算法通过分割长轨迹并广播轨迹级别的优势来进行训练。实验结果表明,与传统的 ReAct 范式相比,R

#人工智能
LLM端侧部署系列 | 陈天奇MLC-LLM重磅升级:基于机器学习编译的通用LLM部署引擎

当下正是大型语言模型和生成式AI时代,蓬勃发展的大型语言模型带来了定制和特定领域模型部署的重大机(风)遇(口)。一方面,云服务器部署发展迅速,提供能够利用多个GPU为更大模型、更多并发服务请求的解决方案。与此同时,本地化的端侧部署开始崭露头角,量化后的模型已能部署到笔记本电脑、浏览器和手机等端侧设备上。相信未来是端云混合的部署方式,因此让任何人都能在云端和本地环境中运行大型语言模型至关重要。包括M

文章图片
#机器学习#人工智能
LLM端侧部署系列 | PowerInfer-2助力AI手机端侧部署47B大模型 (论文解读)

为啥大模型要做端侧部署?除了常说的端侧数据安全隐私,其实还有系统上的原因。PowerInfer-2是一个专为智能手机如何高速推理大型语言模型(LLM)而设计的框架,特别适用于模型大小超过设备内存容量的场景。PowerInfer-2的关键思路是将传统的矩阵计算分解为细粒度的神经元集群计算。具体而言,在PowerInfer-2中设计多态神经元引擎,能够根据LLM推理的不同阶段自适应采用不同的计算策略。

文章图片
#人工智能
Agent系列:AppAgent v2-屏幕智能Agent(详解版)

随着多模态大语言模型(MLLM)的发展,视觉智能体(Agent)正逐渐在软件界面中,尤其是图形用户界面(GUI)中,发挥重要作用。本文设计了一个专为移动设备打造的智能体框架,该框架基于大语言模型,能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间,增强了其在不同应用程序中的适应性,支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段:探索(Explorat

文章图片
#人工智能#多模态
端侧Agent系列 | 端侧AI Agent任务拆解大师如何助力AI手机?(详解版)

AI智能体由于其能够自主决策并执行任务并解决诸多问题,从而在各领域变得越发重要。为了有效运作AI Agent,NexaAI的研发人员提出了一种设备端规划-执行框架Octo-planner和Octopus执行智能体。Octo-planner将任务分解为子步骤,然后由Octopus模型(指之前提出的Octopus v1、v2、v3、v4模型)执行。为优化资源受限设备上的运行性能,官方使用模型微调而非上

文章图片
#人工智能
同一台机器中启动多个neo4j数据库

文章目录0. 背景1. 默认方式启动neo4j2. 方案0:指定配置文件启动neo4j3. 方案1:使用多个安装文件4. 方案2:使用docker4.1 拉取 neo4j 镜像4.2 创建 neo4j 容器4.3 创建多个 neo4j 容器0. 背景对于大量节点和关系的知识图谱导入neo4j,一般是使用neo4j-admin import。而使用neo4j-admin import导入neo4..

#数据库#neo4j
LLM推理中的强化学习及其实战:以GRPO为例(上篇)

如前所述,原始的RLHF方法使用了一种称为近端策略优化(PPO)的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中,"策略"是指我们想要训练的模型;在这种情况下,策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的,这有助于防止模型进行过大的更新,从而可能使训练不稳定。除此之外,PPO还在损失函数中包含了KL散

#人工智能#DeepSeek
LLM推理中的强化学习及其实战:以GRPO为例(上篇)

如前所述,原始的RLHF方法使用了一种称为近端策略优化(PPO)的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中,"策略"是指我们想要训练的模型;在这种情况下,策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的,这有助于防止模型进行过大的更新,从而可能使训练不稳定。除此之外,PPO还在损失函数中包含了KL散

#人工智能#DeepSeek
微调大模型需要多少GPU显存?

起点估算:全参数微调 (FP16, AdamW): 考虑~20XGB 或更多。LoRA 微调 (FP16): 考虑GB,主要看基础模型2XGB + 激活。QLoRA 微调 (4-bit base, LoRA): 考虑GB,主要看基础模型~0.5XGB + 激活。关键变量batch_size和对激活值影响巨大。如果显存不足,优先减小这两个值,或者加强梯度检查点的使用。梯度检查点: 对于大模型微调(无

#人工智能
    共 84 条
  • 1
  • 2
  • 3
  • 9
  • 请选择