logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Diffusion Policy——斯坦福机器人UMI所用的扩散策略:从原理到其编码实现(含Diff-Control、ControlNet详解)

所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法,如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并优化能够最小化能量景观的动作c)通过“条件去噪扩散过程在机器人行动空间上生成行为”,即该扩散策略策略不直接输出一个动作,而是推断出「基于视觉观察的动作-评分梯度」,进行K次去噪迭代。

文章图片
RDT——清华开源的双臂机器人扩散大模型:先预训练后微调,支持语言、图像、动作多种输入(1B参数)

此外,在实践中,我们倾向于一次性预测一系列动作,即一个动作块,以促进时间一致性(Chi等,2023),并通过减少任务中的决策次数来缓解错误累积(Zhao等,2023)这可能导致分布外的动作,例如多个模式的算术平均值,这可能完全不可行(Pearce等,2023),相反,作者选择建模连续条件分布。幸运的是,对于作者的设置来说,这一缺点很小,因为。此外,值得强调的是,他们的目标是利用多机器人数据来增强模

文章图片
2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveLM、DriveVLM

​本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for A

文章图片
#自动驾驶
OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考)

由于我司一直在针对各个工厂、公司、客户特定的业务场景,做解决方案或定制开发,所以针对每一个场景,我们都会反复考虑用什么样的机器人做定制开发于此,便不可避免的追踪国内外最前沿的机器人技术进展,本来准备在上一篇博客《VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里》之后,解读今天上午看到的字节刚发的机器人大模型GR2。

文章图片
一文通透DeepSeek-V2(改造Transformer的中文模型):详解MoE、GRPO、MLA

成就本文有以下三个因素校长最近开始搞deepseek了吗?刚看了论文,没搞懂MLA那块的cache是怎么算的,我总觉得他的效果应该类似MQA才对,但是反馈是挺好的目前团队项目上的事情太多,然后近期在写那个KAN确实还没来得及看这个deepseek,我近期看下而搞之前——近几天,会先写一下它的论文解读,故本文就来了且一如既往做到,对于几乎每一个主题,都做到本博客万千读者或七月学员所说的:“还是看校长

文章图片
#transformer
从LSM-Tree、COLA-Tree谈到StackOverflow、OSQA

从LSM-Tree、COLA-Tree谈到StackOverflow、OSQA作者:July,chx/@罗勍出处:结构之法算法之道blog导读    本文重点谈了4个东西,LSM-Tree及COLA-Tree,及StackOverflow及OSQA,全文分为以下两部分:第一部分从最基本的LSM-Tree的C0C1两组件算法,谈到多组件算法( LSM-Tree最适用于那些索引插入频率远大于查询频率的

#算法#django#数据结构
一文通透想取代MLP的KAN:通俗理解Kolmogorov-Arnold定理和KAN的方方面面

24年5.19,我司七月的「LLM论文100课」里的一学员在课程q群内提到,“最近总是看到KAN,KAN这个概念重要吗?需要了解学习吗?”,我当时回复道:KAN值得学习和了解,咱们课程上 也要讲一下如此,本文也就出来了。

文章图片
一文速览Llama 3.1——对其92页paper的全面细致解读:涵盖语言、视觉、语音的架构、原理

llama3 刚出来时,其长度只有8K对于包括我司在内的大模型开发者是个小小的缺憾,好在很快,在7.23日,Meta发布了Llama 3.1,长度终于达到了128K这个长度使得可以直接通过我司的paper-review数据集去微调了如此,便有了本文:解读下llama3.1的paper,结果一看92页,好在昨天我司上线了基于大模型的翻译系统,​那先翻译一下 快速看下大概 然后慢慢抠。

文章图片
2024自动驾驶(多模态)大模型综述:从DriveGPT4、DriveMLM到DriveLM、DriveVLM

​本文主要涉及以下4篇paper的解读(按发表的时间顺序排列)DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language ModelDriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for A

文章图片
#自动驾驶
微调LLama 3.1——七月论文审稿GPT第5.5版:拿早期paper-review数据集微调LLama 3.1

对于llama3,我们之前已经做了针对llama3 早7数据微调后的测评后来,llama3.1出来后,考虑到性能高于llama3,所以项目组同事青睐、文弱上周做了llama3.1通过早7数据微调后的测评随后,青睐、文弱又分别做了最终,早7数据下,超gpt4 超的不容易;但早4数据下,超gpt4 则很轻松..个人心得是,首先,llama3.1确实是比llama3 更强悍,其次,现在微调一下超过GPT

文章图片
    共 116 条
  • 1
  • 2
  • 3
  • 12
  • 请选择