logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】用 PPO 玩转倒立摆,20W字总结(七)

😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】用 PPO 玩转倒立摆,20W字总结(七),期待与你一同探索、学习、进步,一起卷起来叭!🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题?复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL,之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容,不用手动存任何文件。一键

文章图片
#人工智能#软件工程#python
【强化学习】PPO 让智能体稳步提升,20W字总结(六)

😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本文讲解【强化学习】PPO 让智能体稳步提升,20W字总结(六),期待与你一同探索、学习、进步,一起卷起来叭!🎯想随时搜我的文章、让 AI 帮你深度讲解甚至出面试题?复制下面这段提示词丢进你的 Claude Code——它会自动生成一个本地 SKILL,之后你直接说「搜一下强化学习的文章」就行。RSS 自动同步最新内容,不用手动存任何文件。一

文章图片
#面试#人工智能#自然语言处理 +1
【强化学习】强化学习基本概念,20W字总结(一)

一个智能体(agent),怎么在复杂、不确定的环境(environment)中,拿到尽可能多的奖励?就这么一句话。但这句话背后,藏着 AlphaGo 击败李世石的秘诀,藏着 ChatGPT 对齐人类偏好的 RLHF 技术,也藏着自动驾驶决策系统的核心框架。智能体和环境。它俩一直在互动——智能体观察环境的状态,做出一个动作(action);环境接收到动作后,返回下一个状态和当前动作带来的奖励(rew

文章图片
#面试#职场和发展
【大模型专栏—入门篇】机器学习与深度学习基础测试

在前向传播过程中,模型各个层的参数w和层的输入输出都是fp16,但是fp16的精度不够,无法表示特别小的数值,这会导致在进行梯度更新的时候,梯度值下溢,导致被调整参数没有变化。因此,合理选择缩放因子和监测训练过程中梯度的变化是非常重要的。,当GPU显存不够充足的情况下,较大的Batch size会导致OOM,因此,需要针对实际的硬件情况,设置合理的Batch size取值。对于所有wi都是一样的,

文章图片
#深度学习#人工智能#机器学习
【大模型专栏—基础篇】智能体入门

😊你好,我是小航,一个正在变秃、变强的文艺倾年。🔔本文讲解智能体入门,期待与你一同探索、学习、进步,一起卷起来叭!🔔文章同步存在格式问题,还请见谅!

文章图片
【多智能体&强化学习】构建端到端的自主信息检索代理

🔨动机:获取高质量、细粒度的浏览数据以反映用户意图和丰富的交互上下文;构建支持长期推理和任务分解的可靠轨迹;设计可扩展且具有泛化能力的训练策略,使网络代理能够在分布外的网页环境中、复杂的交互模式和长期目标下表现出稳健的行为。🚩创新:论文提出了一个系统的、端到端的框架,用于从头开始构建多步信息检索网络代理。该框架包括四个关键阶段:数据构建、轨迹采样、监督微调和强化学习。

文章图片
#人工智能#架构#微服务
拥抱云原生,Java与Python基于gRPC通信

It cangRPC是一个现代的开源高性能远程过程调用(RPC)框架,可以在任何环境中运行。它可以有效地连接数据中心内和跨数据中心的服务,支持负载均衡、跟踪、健康检查和身份验证。它也适用于分布式计算,将设备、移动应用程序和浏览器连接到后端服务好处可概括为:1.简单 2.快 3.跨语言跨平台 4.双向+安全gRPC 是Google公司开发的一个高性能、开源和通用的 RPC 框架,面向移动和 HTTP

#java#云原生#python
【多模态&强化学习】基于统一多模态思维链的奖励模型

🔨动机:传统训练方法如监督微调(SFT)`难以获得大规模的多模态CoT奖励数据`;`现有的奖励模型在复杂场景中往往提供不准确或不可靠的奖励信号`。🚩创新:首次提出统一的多模态CoT奖励模型:UNIFIEDREWARD-THINK是第一个能够进行多维、逐步长链推理的统一多模态CoT奖励模型,适用于视觉理解和生成任务。1. 冷启动阶段:首先`使用少量图像生成偏好数据蒸馏GPT-4o`的推理过程,用

文章图片
#架构#微服务#云原生 +1
【大模型专栏—进阶篇】具身智能入门

背景:具身智能的概念最初由图灵在 1950 年建立的具身图灵测试中提出,旨在确定智体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具身,包括机器人,还包括其他设备),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。具身智能(Embodied AI、Embodied I

文章图片
#人工智能#嵌入式
【具身智能体】EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks

1. 自主演化能力:EvoAgent是第一个能够自主完成各种长时任务(LH)的自主演化代理,无需人类干预。2. 持续世界模型:提出了一种新的持续世界模型(WM),能够通过闭环动态不断更新多模态经验池和世界知识。3. 模块化设计:EvoAgent包含三个模块:记忆驱动的规划器、世界模型引导的动作控制器和经验启发的反射器,每个模块都有明确的功能和相互作用。4. 两阶段课程学习机制:通过两阶段课程学习算

文章图片
#AI#人工智能
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择