ズ神马都是浮云＆スタ个人主页

@qq_45622118

ズ神马都是浮云＆スタ

2023-02-07 15:14:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

一文理清强化学习（RL）基本原理（DQN、PPO、GRPO）

类别核心思想代表算法基于值学 Q 值函数基于策略直接优化策略二者结合模型化RL学习环境模型进阶RL多智能体、元学习、自博弈强化学习是一个让机器学会“如何行动”的学问。它的核心是通过试错与奖励信号优化策略，以实现长期收益最大化。

#人工智能 #深度学习 #机器学习

阿里云云数据库RDS快速使用教程

第一步：在阿里云官网买下云数据库。注意：最好选低版本，或者和你自己版本相匹配的，地域选离你近的。第二步：进入阿里云控制台。第三步：点击实例名称进入实例基本信息。进入这里创建一个高权限账户。第四步：点击登录数据库。第五步：进入工作台点击新增实例。实例ID就是实例列表里的，数据库账户为上面创建的。连接成功后登录点击登录即可。登录成功点击左侧数据库管理进行创建数据库等操作。第六步：导入数据到数据库中。

#mysql #服务器 #数据库 +1

一文理清强化学习（RL）基本原理（DQN、PPO、GRPO）

#人工智能 #深度学习 #机器学习

北京人形开源WoW具身世界模型 WOW: TOWARDS A WORLD-OMNISCIENT WORLDMODEL THROUGH EMBODIED INTERACTION

WoW：具身交互驱动的14B参数生成式世界模型摘要：WoW（World-Omniscient World Model）是一个基于大规模真实机器人交互数据训练的14B参数世界模型，旨在通过具身交互发展物理直觉。其创新点包括：1）SOPHIA自优化框架，结合DiT视频生成与VLM评估反馈的闭环优化；2）Flow-Mask逆动力学模型（FM-IDM），实现从想象视频到7自由度机器人动作的转换；3）Wo

#人工智能 #计算机视觉

具身领域的Scaling Law （GEN-0 / Embodied Foundation Models That Scale with Physical Interaction）

本文探讨了不同AI领域的缩放定律（Scaling Laws），揭示了模型性能与计算资源、规模及数据量之间的量化关系。在LLM领域，幂律关系确立了"规模即能力"的认知；VLM研究则发现早期融合架构在低计算预算下更优，MoE模型性能显著提升；RFM领域验证了机器人任务中缩放定律的有效性，同时指出数据多样性的重要性；LBM研究显示其在多任务场景下的数据效率优势。实践案例（如小鹏、GO

#人工智能 #计算机视觉 #深度学习 +1

pi0.6解读 π∗ 0.6: a VLA That Learns From Experience

RECAP算法摘要本文提出RECAP算法，通过优势条件策略实现视觉-语言-动作(VLA)模型的迭代优化。核心流程分为三阶段：预训练：基于多任务演示数据$D_{demo}$，通过Eq.1训练通用价值函数$V_{pre}$，结合Eq.3训练基础策略$\pi_{pre}$；任务适配：针对目标任务$\ell$，用专属演示数据微调获得初始模型$V^0_\ell$和$\pi^0_\ell$；迭代优化：

#机器学习 #人工智能 #深度学习 +1

一文理清强化学习（RL）基本原理（DQN、PPO、GRPO）

#人工智能 #深度学习 #机器学习

具身领域的Scaling Law （GEN-0 / Embodied Foundation Models That Scale with Physical Interaction）

#人工智能 #计算机视觉 #深度学习 +1

具身领域的Scaling Law （GEN-0 / Embodied Foundation Models That Scale with Physical Interaction）

#人工智能 #计算机视觉 #深度学习 +1

Pytorch利用GRU、LSTM实现中文情感分类

#pytorch #lstm #gru +1

共 13 条

请选择