logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

23-25年总结:23年因为大模型而转型科技,24年起发力具身,25年长沙具身开始一轮轮突飞猛进

文章摘要: 作者回顾2023-2025年公司转型历程:2023年因ChatGPT兴起从教育转向科技公司,开发十余个大模型应用;2024年受斯坦福机器人研究启发进军具身智能领域;2025年在长沙组建团队,取得机械臂和人形机器人研发突破(如自主抓取、VR遥操、大模型交互等)。作者提出衡量个人/公司价值的标准是对社会的贡献程度,并强调通过具身智能造福千万人的愿景。文中详细记录了长沙团队在6-9月的技术突

#科技
23-25年总结:23年因为大模型而转型科技,24年起发力具身,25年长沙具身开始一轮轮突飞猛进

文章摘要: 作者回顾2023-2025年公司转型历程:2023年因ChatGPT兴起从教育转向科技公司,开发十余个大模型应用;2024年受斯坦福机器人研究启发进军具身智能领域;2025年在长沙组建团队,取得机械臂和人形机器人研发突破(如自主抓取、VR遥操、大模型交互等)。作者提出衡量个人/公司价值的标准是对社会的贡献程度,并强调通过具身智能造福千万人的愿景。文中详细记录了长沙团队在6-9月的技术突

#科技
一文通透NSA——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合(含DSA的详解)

DeepSeek团队联合北大、华盛顿大学提出全新注意力机制NSA,通过硬件对齐和可训练稀疏性解决长序列处理难题。NSA采用层次化token建模,结合压缩、选择和滑动窗口三种路径,在保持性能的同时显著降低计算量。相比传统方法仅在推理阶段应用稀疏性,NSA实现端到端训练,并兼容现代高效解码架构。实验表明,NSA在64k上下文处理中计算量减少7.88倍,获ACL2025最佳论文,其改进版DSA已应用于D

文章图片
VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE

摘要:2017年研究者基于Matterport3D数据集开发了仿真环境Matterport3D Simulator,并构建了Room-to-Room(R2R)基准数据集,推动视觉与语言导航(VLN)研究发展。R2R包含21,567条自然语言导航指令,覆盖90个真实建筑场景,建立了导航成功率、路径长度和导航误差三大评估指标。该数据集解决了此前研究中数据孤立的问题,为VLN领域提供了首个标准化评估基准

文章图片
SoFTA——如何让人形在餐厅给顾客上一杯啤酒:快-慢双智能体框架,上半身高频执行精细操作,下半身低频稳步行走

SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。

文章图片
SoFTA——如何让人形在餐厅给顾客上一杯啤酒:快-慢双智能体框架,上半身高频执行精细操作,下半身低频稳步行走

SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。

文章图片
一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)

自从deepseek爆火以后,真是应了“人红是非多”那句话,不但遭受各种大规模攻击,即便后来挡住了大部分攻击,但海内外大量闯入deepseek官网一探究竟的网友也把他们的服务器压得不堪重负导致一提问,要么频繁显示:服务器繁忙,请稍后再试,要么回答了 但无法联网,致使我朋友圈内一些不知情的朋友说:看把媒体给能的,各种瞎吹,但其实不过尔尔..怎么办呢?在huggingface上总共有以下几种参数的de

文章图片
一文通透登上Nature的DeepSeek R1:如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)

而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的

文章图片
可语音流畅交互的OneTwoVLA——推理数据微调π0:一个模型中完成原来双系统下的慢思考、快执行,且能自适应推理和自我纠错

OneTwoVLA:统一视觉-语言-行动模型实现自适应推理与执行协同 本文提出OneTwoVLA模型,通过统一架构解决现有系统在推理与执行分离时产生的问题。该模型创新性地实现了:1)自适应切换推理与执行模式的能力;2)支持视觉-语言数据的联合训练提升泛化性;3)开发可扩展的合成流程自动生成16,000个具身推理数据样本。相比传统双系统框架,OneTwoVLA在错误检测恢复、人机交互和视觉定位等方面

文章图片
NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(LiDAR点云构建高度图)

如此前的博客所说,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享​但可以持续解读我们所创新改造或的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而其中有一个订单涉及到行走之外的导航、避障,项目组在确定解决方案的过程中,看到了NaVILA这个工作,故本文来解读下。

文章图片
    共 370 条
  • 1
  • 2
  • 3
  • 37
  • 请选择