logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

文章图片
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

文章图片
RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据

摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知

文章图片
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦

程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...

文章图片
#机器学习#ChatGPT#DeepSeek
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

本文提出了一种名为优势奖励建模(ARM)的新框架,用于解决长时间跨度机器人操作任务中的强化学习挑战。传统方法依赖稀疏奖励信号或高成本的人工标注,难以有效处理复杂任务中的非单调行为。ARM创新性地采用三态标注策略(前进、后退、停滞),通过多模态Transformer模型实现对相对优势的估计,而非传统的绝对进度评估。该方法显著降低了标注成本,同时提高了跨标注者的一致性。实验证明,ARM在毛巾折叠任务中

文章图片
ARM——用于长时序操作的优势奖励建模:采用三态标注策略(前进/后退/停滞),实现对相对优势的估计(含SARM详解)

本文提出了一种名为优势奖励建模(ARM)的新框架,用于解决长时间跨度机器人操作任务中的强化学习挑战。传统方法依赖稀疏奖励信号或高成本的人工标注,难以有效处理复杂任务中的非单调行为。ARM创新性地采用三态标注策略(前进、后退、停滞),通过多模态Transformer模型实现对相对优势的估计,而非传统的绝对进度评估。该方法显著降低了标注成本,同时提高了跨标注者的一致性。实验证明,ARM在毛巾折叠任务中

文章图片
rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)

本文介绍了一个强化学习框架rsl_rl,重点解析了其PPO算法的实现。该框架包含Actor-Critic网络(包括普通版、CNN版、历史记忆版和RNN版)、PPO算法实现、训练运行器等核心组件。在PPO实现部分,详细说明了其初始化过程、动作选择、环境交互处理、回报计算和参数更新机制。其中参数更新采用了裁剪优势估计、自适应学习率调整等技术,通过代理损失、价值函数损失和熵奖励三部分构成总损失进行梯度优

文章图片
十二之再续:快速排序算法之所有版本的c/c++实现

十二之再续、快速排序算法所有版本的c/c++实现作者:July、二零一一年三月二十日。出处:http://blog.csdn.net/v_JULY_v。-------------------------------------------------- 前言:    相信,经过本人之前写的前俩篇关于快速排序算法的文章:第一篇、一、快速排序算法,及第二篇、一之续、快速排序算法的深入分析,各位,已经对

#算法#测试
Training-Time RTC——在训练时模拟推理延迟(前缀部分无需去噪专心预测后续动作即可):消除推理阶段的计算开销,让π0.6完成箱子装配与咖啡制作

摘要:本文提出一种训练时实时分块(training-time RTC)方法,通过模拟推理延迟直接调节动作前缀,有效解决了视觉语言动作模型(VLA)在实时控制中的延迟问题。相比需要推理时图像修复的传统RTC方法,新方案完全消除了推理阶段的计算开销,仅需微调现有模型即可实现。实验表明,该方法在高延迟场景下性能优于推理时RTC,在箱体构建和咖啡制作等复杂任务中,既能保持执行速度和任务性能,又显著降低了计

文章图片
几个最短路径算法Floyd、Dijkstra、Bellman-Ford、SPFA的比较

几大最短路径算法比较 July、二零一一年二月十二日。-----------------------------------  几个最短路径算法的比较:Floyd       求多源、无负权边的最短路。用矩阵记录图。时效性较差,时间复杂度O(V^3)。       Floyd-Warshall算法(Floyd-Warshall algorithm)是解决任意两点间的最短路径的一种算法,可以正确处理

#算法
    共 464 条
  • 1
  • 2
  • 3
  • 47
  • 请选择