logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

边缘端部署视觉语言多模态大模型

在人工智能快速发展的今天,视觉语言模型(Vision-Language Models, VLM)正在改变我们理解和处理多模态信息的方式。从图像理解到视觉问答,从场景描述到视觉推理,VLM展现出了惊人的能力。然而,这些强大的模型通常需要大量的计算资源,如何在边缘设备上高效部署成为了一个重要挑战。作为新一代边缘AI计算平台,为VLM的边缘部署提供了可能。本文将深入探讨如何在这个平台上部署主流的视觉语言

#深度学习#算法#机器学习 +1
无人机视觉语言导航从入门到精通(十四):大语言模型与导航决策

本文系统介绍了大语言模型(LLM)在视觉语言导航(VLN)中的应用范式。主要内容包括:LLM作为高层规划器分解导航任务、思维链推理技术提升决策质量、Prompt工程优化交互设计,以及LLM与传统导航方法的结合策略。文章详细阐述了NavCoT等专用推理框架,通过层次化架构和结构化Prompt设计,充分发挥LLM在语言理解、常识推理和任务规划方面的优势。这些方法显著提升了导航系统在复杂场景下的泛化能力

#语言模型#人工智能#自然语言处理
ROS1机器人SLAM系列(一):SLAM概述与基础知识

本文是ROS1机器人SLAM系列的第一篇,系统介绍了SLAM技术的基础知识。主要内容包括:1) SLAM的定义及其数学本质;2) SLAM按传感器、地图类型和维度的分类;3) SLAM系统的基本框架及各模块功能;4) ROS1中的主流SLAM算法比较;5) 学习SLAM所需的前置知识;6) 本系列文章的规划。文章通过类比和图表等方式,帮助读者理解SLAM的核心概念及其在机器人自主导航中的重要性,为

#机器人
ROS1机器人SLAM系列(五):Cartographer算法详解

Cartographer是Google开源的2D/3D激光SLAM系统,采用图优化框架,具备强大的回环检测能力。该系统由Local SLAM(前端)和Global SLAM(后端)组成,通过子图机制构建地图并优化位姿。与Gmapping相比,Cartographer支持更高维度建图和大场景处理,但计算资源需求更高。ROS集成提供完整的建图流程,通过Lua配置文件可灵活调整参数。文章详细介绍了算法原

#机器人#算法
ROS1机器人SLAM系列(四):Gmapping算法详解与实战

本文详细介绍了Gmapping算法原理及其ROS实现。Gmapping是一种基于Rao-Blackwellized粒子滤波的2D激光SLAM算法,通过粒子滤波估计机器人位姿并构建栅格地图。文章首先讲解了算法流程和核心原理,包括运动模型、扫描匹配、权重计算等关键技术。然后详细解析了ROS中的Gmapping实现,包括订阅/发布的话题、服务接口以及关键参数配置。最后提供了实战指南,展示如何创建Gmap

#机器人
【深度学习】U-Net系列(一·补):U-Net网络结构深度剖析

本文深入剖析U-Net网络结构,通过Graphviz可视化呈现完整架构。文章详细解析了编码器(蓝色系)、解码器(绿色系)和瓶颈层(紫色系)的层级结构,包括每层的特征图尺寸变化和参数配置。编码器包含4个下采样块,每块由3×3卷积+BN+ReLU组成,通过最大池化降维;解码器对应4个上采样块,使用转置卷积恢复尺寸并与编码器特征拼接。特别标注了跳跃连接(橙色虚线)和池化/上采样(红色)操作,完整展示了5

#深度学习#人工智能
【深度学习】U-Net系列(四):U-Net变体与改进版本

U-Net系列演进与改进综述:本文系统梳理了U-Net的各种变体,包括U-Net++(密集跳跃连接)、Attention U-Net(注意力门机制)、ResUNet(残差连接)、3D U-Net(体数据处理)和TransUNet(Transformer混合架构)。通过架构对比和选型指南,分析了各变体的核心创新、优势及适用场景,并展望了Transformer融合、轻量化设计等前沿发展方向,为医学图像

#深度学习#人工智能#图像处理
深度学习驱动的控制方法详解(六):深度强化学习控制(三)—— Actor-Critic架构

摘要: 本文详细介绍了深度强化学习中的Actor-Critic架构及其典型算法DDPG。Actor-Critic结合了值函数方法(低方差)和策略梯度方法(支持连续动作)的优势,通过Actor网络输出动作策略,Critic网络评估状态-动作值。重点讲解了确定性策略梯度定理(DPG)和DDPG算法,后者通过经验回放、目标网络和噪声探索实现高效连续控制。文中包含完整的DDPG算法流程和PyTorch实现

#深度学习#人工智能
深度学习驱动的控制方法详解(十二):实战案例与工程部署

本文是深度学习控制系列文章的终章,聚焦工程实践环节,通过两个典型案例展示从仿真到真实部署的全流程。第一个案例详细介绍了四足机器人运动控制的深度强化学习实现,包括40维状态空间和12维动作空间的设计、基于PPO算法的训练流程、奖励函数工程以及课程学习策略。第二个案例展示了机械臂抓取任务,采用SAC算法构建端到端控制系统,包含15维状态空间和8维动作空间的设计。文章特别强调了工程实现细节,如并行环境设

#深度学习#人工智能#学习 +1
【SAM系列01】Segment Anything Model 概述与背景介绍

本文介绍了Meta AI发布的Segment Anything Model(SAM),这一通用图像分割领域的里程碑模型。文章回顾了图像分割从传统方法到深度学习时代的发展历程,重点分析了SAM的创新之处:提出可提示的分割任务,设计高效的三组件架构(图像编码器、提示编码器和掩码解码器),构建11亿规模的SA-1B数据集,以及开发三阶段数据引擎。SAM展示了强大的零样本迁移能力,支持点、框等多种交互方式

#深度学习#人工智能
    共 155 条
  • 1
  • 2
  • 3
  • 16
  • 请选择