logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LeVERB框架——基于潜在视觉-语言指令的人形全身控制 解读

视觉-语言-动作(Vision-Language-Action, VLA)模型在静态操作任务中展现了强大的零样本泛化能力,然而现有系统普遍依赖手工设计的动作词汇表,如末端执行器位姿或根节点速度。考虑部分可观察马尔可夫决策过程(POMDP),其状态空间 S 包含人形机器人的关节配置与速度,观察空间 O 包含机载传感器数据与外部相机图像,动作空间 A 为关节力矩指令。该词汇表通过概率生成模型从大规模合

【WholeBodyVLA:面向全身移动操作的统一潜在视觉-语言-动作模型】(二) 第三章:实验验证与前沿拓展(应用层)

与GR00T N1.5相比,本方法在需要精细力控制的任务(装箱、装载)中表现更优,成功率分别高出12.4%和8.9%,但在纯语言指令跟随的泛化性上略逊一筹。将人形机器人数据与单臂操作数据混合训练单一LAM,在装箱任务中成功率下降至68.4%,且出现频繁的异常行为,如单臂操作数据导致的无效下肢动作。实验结果揭示了机器人学习中的数据缩放定律。首先,当前架构采用开环动作生成与闭环视觉反馈相结合的策略,但

#大数据
【HiWET技术专栏】 第三章 工程实现与系统验证

滑动窗口优化基于Ceres Solver实现,优化问题构建遵循稀疏性最大化原则。参数块按物理意义划分为机器人基座位姿(6维SE(3)流形)、臂部关节角(N维欧氏空间)、相机外参(6维)、IMU零偏(6维)及特征点逆深度(1维)。每类参数块关联独立的局部参数化,SE(3)参数块通过实现四元数归一化约束。残差块设计涵盖重投影误差、IMU预积分约束、关节编码器一致性及层级相对位姿约束四类。重投影误差代价

#人工智能#机器学习#目标检测
用一段 JS 脚本让 ChatGPT 自动帮你写论文

通过这个脚本,我们将“人机交互”转变为“简单的自动化流程。

#javascript#开发语言
【多模态视觉革命:架构、生成与安全】第3章 超越DDPM:流匹配与一致性模型

这一转变不仅是采样效率的提升,更是生成模型物理视角的根本切换。本章将从随机微分方程(SDE)的统一视角出发,严格推导流形生成的动力学方程,并剖析支撑 SD3 和 Flux 等 SOTA 模型的核心架构。Stable Diffusion 3 和 Flux 的发布,标志着**条件流匹配(Conditional Flow Matching, CFM)**正式取代 DDPM 成为新一代生成模型的主流范式。

#计算机视觉#人工智能
面向人工智能的数据处理:应用、技术与系统

随着深度学习技术的演进,特别是大语言模型(LLM)的广泛应用,人工智能系统的开发范式正经历从“以模型为中心(Model-Centric)”向“以数据为中心(Data-Centric)”的深刻变革。在这一新范式下,数据的质量、语义丰富度及检索效率成为决定模型性能上限的关键因素。本文旨在系统性地综述面向AI的数据处理体系。首先,我们将探讨非结构化数据(如PDF、HTML)的解析与清洗技术,重点分析文档

#数据库
YOLOv12 原理详解(纯文字背诵版)

YOLOv12:Area Attention 分四区降复杂度,R-ELAN 残差聚合稳大模型,FlashAttention+去位置编码+大核7×7+MLP1.2 四刀优化,继承 v11 Anchor-Free 解耦头+TaskAlignedAssigner+VFL+DFL+CIoU,注意力终于跑出 CNN 速度,精度起飞速度不跪,2025 年真正的神。

#人工智能#机器学习
将PDF转化为RAG文件,进行数据清洗

它结合深度学习布局分析、高精度 OCR(默认 Surya)和公式重建,支持批量处理,输出干净的 Markdown + 结构化 JSON 元数据。在本地 RAG(Retrieval-Augmented Generation)系统中,PDF 解析质量是决定最终问答准确率的关键(Garbage In, Garbage Out)。本节提供生产级批量 ETL 脚本,将 PDF 目录转换为 LLM 友好的 M

#人工智能
【YOLOv8全方位学习手册】第二章:YOLOv8核心功能:预训练模型的使用与结果解析

当需要将YOLOv8集成到更复杂的应用程序中时,Python接口提供了无与伦比的灵活性。学完本章,你已经掌握了YOLOv8最核心的预测功能,并能像专业开发者一样解析其返回数据。命令行接口(CLI)是与YOLOv8交互最快捷的方式,尤其适合快速测试模型效果或进行简单的批处理任务。可以是单个图片路径、包含多张图片的文件夹、视频文件路径,或是代表摄像头的设备ID(通常为。形状的张量,归一化后的坐标(所有

#深度学习#机器学习#python
面向人工智能的数据处理:应用、技术与系统

随着深度学习技术的演进,特别是大语言模型(LLM)的广泛应用,人工智能系统的开发范式正经历从“以模型为中心(Model-Centric)”向“以数据为中心(Data-Centric)”的深刻变革。在这一新范式下,数据的质量、语义丰富度及检索效率成为决定模型性能上限的关键因素。本文旨在系统性地综述面向AI的数据处理体系。首先,我们将探讨非结构化数据(如PDF、HTML)的解析与清洗技术,重点分析文档

#数据库
    共 15 条
  • 1
  • 2
  • 请选择