
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
引言下载待部署模型安装minconda安装tvm和mlc-llm安装 JDK安装 Android SDK下载mlc-llm仓库设置环境变量安装Rust。

ReSum旨在解决基于大型语言模型(LLM)的WebAgent在执行长周期搜索任务时遇到的上下文窗口限制问题。ReSum通过周期性地调用摘要工具来压缩不断增长的交互历史,将其转化为紧凑的推理状态,从而实现无限探索。为了使智能体适应这种基于摘要的推理模式,作者们设计了ReSum-GRPO强化学习算法,该算法通过分割长轨迹并广播轨迹级别的优势来进行训练。实验结果表明,与传统的 ReAct 范式相比,R
当下正是大型语言模型和生成式AI时代,蓬勃发展的大型语言模型带来了定制和特定领域模型部署的重大机(风)遇(口)。一方面,云服务器部署发展迅速,提供能够利用多个GPU为更大模型、更多并发服务请求的解决方案。与此同时,本地化的端侧部署开始崭露头角,量化后的模型已能部署到笔记本电脑、浏览器和手机等端侧设备上。相信未来是端云混合的部署方式,因此让任何人都能在云端和本地环境中运行大型语言模型至关重要。包括M

为啥大模型要做端侧部署?除了常说的端侧数据安全隐私,其实还有系统上的原因。PowerInfer-2是一个专为智能手机如何高速推理大型语言模型(LLM)而设计的框架,特别适用于模型大小超过设备内存容量的场景。PowerInfer-2的关键思路是将传统的矩阵计算分解为细粒度的神经元集群计算。具体而言,在PowerInfer-2中设计多态神经元引擎,能够根据LLM推理的不同阶段自适应采用不同的计算策略。

随着多模态大语言模型(MLLM)的发展,视觉智能体(Agent)正逐渐在软件界面中,尤其是图形用户界面(GUI)中,发挥重要作用。本文设计了一个专为移动设备打造的智能体框架,该框架基于大语言模型,能够在移动设备上导航并模拟用户交互行为。AppAgent v2 通过构建灵活的动作空间,增强了其在不同应用程序中的适应性,支持解析器、文本和视觉描述的结合。智能体的工作分为两个阶段:探索(Explorat

AI智能体由于其能够自主决策并执行任务并解决诸多问题,从而在各领域变得越发重要。为了有效运作AI Agent,NexaAI的研发人员提出了一种设备端规划-执行框架Octo-planner和Octopus执行智能体。Octo-planner将任务分解为子步骤,然后由Octopus模型(指之前提出的Octopus v1、v2、v3、v4模型)执行。为优化资源受限设备上的运行性能,官方使用模型微调而非上

文章目录0. 背景1. 默认方式启动neo4j2. 方案0:指定配置文件启动neo4j3. 方案1:使用多个安装文件4. 方案2:使用docker4.1 拉取 neo4j 镜像4.2 创建 neo4j 容器4.3 创建多个 neo4j 容器0. 背景对于大量节点和关系的知识图谱导入neo4j,一般是使用neo4j-admin import。而使用neo4j-admin import导入neo4..
如前所述,原始的RLHF方法使用了一种称为近端策略优化(PPO)的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中,"策略"是指我们想要训练的模型;在这种情况下,策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的,这有助于防止模型进行过大的更新,从而可能使训练不稳定。除此之外,PPO还在损失函数中包含了KL散
如前所述,原始的RLHF方法使用了一种称为近端策略优化(PPO)的强化学习算法。PPO的开发旨在提高策略训练的稳定性和效率。在强化学习中,"策略"是指我们想要训练的模型;在这种情况下,策略=大语言模型。PPO背后的关键思想之一是限制每次更新步骤中策略允许改变的程度。这是通过使用一个裁剪损失函数来实现的,这有助于防止模型进行过大的更新,从而可能使训练不稳定。除此之外,PPO还在损失函数中包含了KL散
起点估算:全参数微调 (FP16, AdamW): 考虑~20XGB 或更多。LoRA 微调 (FP16): 考虑GB,主要看基础模型2XGB + 激活。QLoRA 微调 (4-bit base, LoRA): 考虑GB,主要看基础模型~0.5XGB + 激活。关键变量batch_size和对激活值影响巨大。如果显存不足,优先减小这两个值,或者加强梯度检查点的使用。梯度检查点: 对于大模型微调(无







