
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
众所周知,运行GPT这样的大模型应用非常昂贵,需要大量的硬件加速器,如GPU「我司过去半年做了一系列大模型应用,比如基于大模型的论文审稿、翻译、修订、对话、idea提炼,对此深有感触根据最近的估算,处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本,提高吞吐量——从而降低成本——变得尤为重要。

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

本文探讨了具身智能开发的前景,重点解读了TA-VLA模型在机械臂精密操作中的应用。研究表明,通过将关节力矩信号集成到视觉-语言-动作模型中,可显著提升机械臂对物理接触的感知能力。作者系统分析了力矩信号在模型中的三种集成维度(时序、位置、方式),发现将历史力矩编码为解码器的单一token效果最佳。实验证明,这种设计在10项任务中优于传统VLA方法,特别是在充电器插拔等精细操作任务中,能准确区分接触状

摘要:ForceVLA是一种新型视觉-语言-动作(VLA)模型,通过引入力感知专家混合(MoE)模块,将6D力反馈与视觉语言信息融合,显著提升了机器人在精密插拔等接触密集型任务中的表现。相比现有主要依赖视觉的VLA模型,ForceVLA能动态感知任务各阶段的力变化,实现更精确的物理交互。该模型在π0框架基础上,通过SigLIP视觉语言编码器处理多摄像头输入,并结合本体感知和力觉信息,利用条件流匹配

如原论文所说,OpenClaw 提供了具有完整系统权限的本地化运行时环境,但缺乏支撑长时长、多机器人执行所需的具身控制架构为此,来自阿里巴巴的高德团队提出 ABot-Claw,这是 OpenClaw 的具身扩展

如原论文所说,OpenClaw 提供了具有完整系统权限的本地化运行时环境,但缺乏支撑长时长、多机器人执行所需的具身控制架构为此,来自阿里巴巴的高德团队提出 ABot-Claw,这是 OpenClaw 的具身扩展

DeepSeek-V4系列推出两个预览版MoE语言模型:1.6T参数的DeepSeek-V4-Pro和284B参数的DeepSeek-V4-Flash,均支持100万token上下文。关键创新包括:混合注意力架构(CSA+HCA)提升长文本效率;流形约束超连接(mHC)增强残差连接;采用Muon优化器加速收敛。相比V3.2,V4-Pro在百万token场景下推理FLOPs降至27%,KV缓存降至1

本文提出G0.5模型,将视觉-语言-动作(VLA)任务统一为单一自回归序列生成过程。该模型采用预训练的视觉语言模型Qwen3.52B作为主干,通过结构化动作分词器和原生思维链机制,实现感知、推理与动作生成的端到端统一。关键创新包括:1)跨载体动作分词器将异构机器人动作映射到共享词表;2)在同一自回归序列中交错生成推理token与动作token;3)视觉记忆模块注入历史信息。相比主流"VL

本文提出τ0-WorldModel(τ0-WM),这是一个统一的视频-动作世界模型,整合了策略学习、视频预测和动作评估功能。该模型基于共享的视频扩散骨干网络,提供两种接口:视频动作模型(VAM)联合预测未来视觉表示和连续动作片段;动作条件视频模拟器(ACVS)则评估候选动作的未来效果和任务进展。模型在27,300小时的异构数据(包括机器人遥操作、UMI交互和人类视频)上训练,通过模态特定监督掩码处

《FALCON:力自适应人形机器人行走操作的双智能体强化学习框架》 摘要:本文提出FALCON框架,针对人形机器人在高强度行走操作任务中的力适应问题,采用双智能体强化学习架构。通过将上下半身控制策略解耦训练,并共享全身感知信息,FALCON实现了在三维末端执行器力作用下的协调控制。创新性地设计了考虑关节扭矩限制的三维力课程,使策略能逐步学习力适应能力。实验表明,相比传统方法,FALCON在训练效率








