logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度Q网络DQN

DQN受max操作影响,估计的Q值往往会偏大,这是因为它是以下一时刻的状态St+1的Q值的最大值来估算的,但是St+1的Q值也是一个估算值,也依赖其下一个状态的Q值,由于误差传递,往往导致Q值偏大问题出现。含有多层激活函数的神经网络,能够实现非线性的函数逼近,是非常强大的函数逼近器。用两套神经网络分别来估计两个不同的Q函数,原来的神经网络训练Qw,然后固定住t时刻的Qw(左)的值,用另一个神经网络

#机器人#人工智能
如何查看本电脑python安装位置

如何查看本电脑python安装位置

文章图片
#python
扩散策略:通过动作扩散的视觉运动策略学习

本文介绍了扩散策略(Diffusion Policy),这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们在来自4个不同机器人操作基准的15项不同任务上对扩散策略进行了基准测试,发现它始终优于现有的最先进的机器人学习方法,平均改进幅度达到46.9%。扩散策略学习动作分布得分函数的梯度,并在推理过程中通过一系列随机朗之万动力学步骤,根据该梯度场进行迭代优化。

文章图片
#学习#人工智能
VLA概述

1.传统的机器人决策系统有很强的规则性,没有很好的泛化性。2.VLA就是从给定的视觉和文本信号,去产生相应的动作信号并驱动机器人去执行3.整体流程4.主体要素4.1对于视觉信号而言,最常见的就是ViT4.2对于语言信号而言,最常见的就是基于LLaMA,ChatGPT等大模一些发展。4.3动作模型:Diffusion Policy等6.视觉发展历程6.1Transformer这种模型是具有更强的泛化

#机器人#人工智能
基于视觉的机器人抓取:从物体定位、物体位姿估计到平行夹爪的抓取估计——综述

本文全面综述了基于视觉的机器人抓取技术。我们总结了基于视觉的机器人抓取过程中的三个关键任务,分别是物体定位、物体位姿估计和抓取估计。具体而言,物体定位任务包括无需分类的物体定位、物体检测和物体实例分割。该任务为输入数据中的目标物体提供了区域信息。物体位姿估计任务主要是指估计物体的6D位姿,包括基于对应的方法、基于模板的方法和基于投票的方法,这些方法为已知物体生成抓取位姿。抓取估计任务包括2D平面抓

文章图片
#机器人
机器学习基本概念与建模流程

机器学习(的过程)本质是通过数据的不断训练,使得模型在其对应的评价指标上表现越来越好的一个过程。

#机器学习
RT-1:面向大规模实际应用场景控制的机器人Transformer模型

在本节中,我们将介绍图像、文本和动作的离散化方式(tokenization),并进一步阐述 RT-1 模型的架构设计。随后,我们将说明如何实现满足实时控制需求的运行速度。最后,我们还将描述数据采集的流程,以及数据集中包含的技能和指令内容。图 2(a) 用于大规模数据采集的机器人教室;(b) 一个真实办公厨房,是用于评估的两个逼真环境之一(在本文其余部分中称为 Kitchen1);(c) 另一个用于

#机器人#transformer#深度学习
多标签和多分类有什么区别?

每个样本只能属于一个类别,从多个类别中选择一个类别进行分类。

#分类#数据挖掘#人工智能
如何在Anaconda中创建Python虚拟环境

输入:conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/然后回车。2.待会儿创建环境的时候需要在环境中下载Python,防止下载失败我们给Anaconda加上一个国内的镜像源。3.创建环境之前我们还需要有一个Python版本查询的操作,不指定Python版本的话默认下载最新版。回车

文章图片
#python#开发语言#linux
马尔科夫随机过程

1. 强化学习研究的是和时间相关的序列数据,即agent与环境是一种动态交互的行为。2. 序列数据分析:日常生活中是有大量的数据是和时间相关的,反应某一个事物或者现象随着时间的变化状态、程度。比如:环境数据、健康数据、行为数据、金融数据、文本数据等等。时间序列分析是从按照时间排序的这些数据点中抽取有价值的总结,或者统计信息的这样一种行为。既包含了对过去数据的诊断,也包括对未来数据的预测。3. 序列

#机器人#人工智能
到底了