logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文通透vLLM与其核心技术PagedAttention:减少KV Cache碎片、提高GPU显存利用率(推理加速利器)

众所周知,运行GPT这样的大模型应用非常昂贵,需要大量的硬件加速器,如GPU「我司过去半年做了一系列大模型应用,比如基于大模型的论文审稿、翻译、修订、对话、idea提炼,对此深有感触根据最近的估算,处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本,提高吞吐量——从而降低成本——变得尤为重要。

文章图片
#vLLM
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

文章图片
TA-VLA——将关节力矩反馈融入VLA中:无需外部力传感器,即可完成汽车充电器插入(且可多次自主尝试,已开源)

本文探讨了具身智能开发的前景,重点解读了TA-VLA模型在机械臂精密操作中的应用。研究表明,通过将关节力矩信号集成到视觉-语言-动作模型中,可显著提升机械臂对物理接触的感知能力。作者系统分析了力矩信号在模型中的三种集成维度(时序、位置、方式),发现将历史力矩编码为解码器的单一token效果最佳。实验证明,这种设计在10项任务中优于传统VLA方法,特别是在充电器插拔等精细操作任务中,能准确区分接触状

文章图片
ForceVLA——将具备力感知的MoE整合进π0的动作专家中:从而融合“视觉 语言 力反馈”实现精密插拔(非夕集成了六维力传感器,已开源)

摘要:ForceVLA是一种新型视觉-语言-动作(VLA)模型,通过引入力感知专家混合(MoE)模块,将6D力反馈与视觉语言信息融合,显著提升了机器人在精密插拔等接触密集型任务中的表现。相比现有主要依赖视觉的VLA模型,ForceVLA能动态感知任务各阶段的力变化,实现更精确的物理交互。该模型在π0框架基础上,通过SigLIP视觉语言编码器处理多摄像头输入,并结合本体感知和力觉信息,利用条件流匹配

文章图片
ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点:统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

如原论文所说,OpenClaw 提供了具有完整系统权限的本地化运行时环境,但缺乏支撑长时长、多机器人执行所需的具身控制架构为此,来自阿里巴巴的高德团队提出 ABot-Claw,这是 OpenClaw 的具身扩展

文章图片
ABot-Claw——改进OpenClaw以驱动双足机器人自主干活的三个关键点:统一具身接口、视觉多模态记忆、基于奖励模型的执行反馈模块(比如给会议室的人递杯水)

如原论文所说,OpenClaw 提供了具有完整系统权限的本地化运行时环境,但缺乏支撑长时长、多机器人执行所需的具身控制架构为此,来自阿里巴巴的高德团队提出 ABot-Claw,这是 OpenClaw 的具身扩展

文章图片
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

文章图片
Galaxea G0.5——升级“VLA自回归建模”范式:摒弃VLM上添加动作专家的模式,而是构建统一模型,用一套权重,在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)

本文提出G0.5模型,将视觉-语言-动作(VLA)任务统一为单一自回归序列生成过程。该模型采用预训练的视觉语言模型Qwen3.52B作为主干,通过结构化动作分词器和原生思维链机制,实现感知、推理与动作生成的端到端统一。关键创新包括:1)跨载体动作分词器将异构机器人动作映射到共享词表;2)在同一自回归序列中交错生成推理token与动作token;3)视觉记忆模块注入历史信息。相比主流"VL

文章图片
τ0-WM——智元的视频-动作世界模型:组合“遥操、umi、人类第一人称视角”数据,未来视觉Latent助力动作生成,然后重新加噪去噪,若自洽取表现最好者直接执行,否则模拟推演找出最佳视觉指引重新生成

本文提出τ0-WorldModel(τ0-WM),这是一个统一的视频-动作世界模型,整合了策略学习、视频预测和动作评估功能。该模型基于共享的视频扩散骨干网络,提供两种接口:视频动作模型(VAM)联合预测未来视觉表示和连续动作片段;动作条件视频模拟器(ACVS)则评估候选动作的未来效果和任务进展。模型在27,300小时的异构数据(包括机器人遥操作、UMI交互和人类视频)上训练,通过模态特定监督掩码处

文章图片
FALCON——力自适应RL框架:上下双智能体(上肢操作策略、下肢行走策略)共享本体感觉和命令,然后联合训练

《FALCON:力自适应人形机器人行走操作的双智能体强化学习框架》 摘要:本文提出FALCON框架,针对人形机器人在高强度行走操作任务中的力适应问题,采用双智能体强化学习架构。通过将上下半身控制策略解耦训练,并共享全身感知信息,FALCON实现了在三维末端执行器力作用下的协调控制。创新性地设计了考虑关节扭矩限制的三维力课程,使策略能逐步学习力适应能力。实验表明,相比传统方法,FALCON在训练效率

文章图片
    共 430 条
  • 1
  • 2
  • 3
  • 43
  • 请选择