
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知

程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...

本文提出了一种名为优势奖励建模(ARM)的新框架,用于解决长时间跨度机器人操作任务中的强化学习挑战。传统方法依赖稀疏奖励信号或高成本的人工标注,难以有效处理复杂任务中的非单调行为。ARM创新性地采用三态标注策略(前进、后退、停滞),通过多模态Transformer模型实现对相对优势的估计,而非传统的绝对进度评估。该方法显著降低了标注成本,同时提高了跨标注者的一致性。实验证明,ARM在毛巾折叠任务中

本文提出了一种名为优势奖励建模(ARM)的新框架,用于解决长时间跨度机器人操作任务中的强化学习挑战。传统方法依赖稀疏奖励信号或高成本的人工标注,难以有效处理复杂任务中的非单调行为。ARM创新性地采用三态标注策略(前进、后退、停滞),通过多模态Transformer模型实现对相对优势的估计,而非传统的绝对进度评估。该方法显著降低了标注成本,同时提高了跨标注者的一致性。实验证明,ARM在毛巾折叠任务中

本文介绍了一个强化学习框架rsl_rl,重点解析了其PPO算法的实现。该框架包含Actor-Critic网络(包括普通版、CNN版、历史记忆版和RNN版)、PPO算法实现、训练运行器等核心组件。在PPO实现部分,详细说明了其初始化过程、动作选择、环境交互处理、回报计算和参数更新机制。其中参数更新采用了裁剪优势估计、自适应学习率调整等技术,通过代理损失、价值函数损失和熵奖励三部分构成总损失进行梯度优

十二之再续、快速排序算法所有版本的c/c++实现作者:July、二零一一年三月二十日。出处:http://blog.csdn.net/v_JULY_v。-------------------------------------------------- 前言: 相信,经过本人之前写的前俩篇关于快速排序算法的文章:第一篇、一、快速排序算法,及第二篇、一之续、快速排序算法的深入分析,各位,已经对
摘要:本文提出一种训练时实时分块(training-time RTC)方法,通过模拟推理延迟直接调节动作前缀,有效解决了视觉语言动作模型(VLA)在实时控制中的延迟问题。相比需要推理时图像修复的传统RTC方法,新方案完全消除了推理阶段的计算开销,仅需微调现有模型即可实现。实验表明,该方法在高延迟场景下性能优于推理时RTC,在箱体构建和咖啡制作等复杂任务中,既能保持执行速度和任务性能,又显著降低了计

几大最短路径算法比较 July、二零一一年二月十二日。----------------------------------- 几个最短路径算法的比较:Floyd 求多源、无负权边的最短路。用矩阵记录图。时效性较差,时间复杂度O(V^3)。 Floyd-Warshall算法(Floyd-Warshall algorithm)是解决任意两点间的最短路径的一种算法,可以正确处理







