logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

具身智能-VLA综述

摘要: 《ASurveyonVision-Language-ActionModelsforEmbodiedAI》系统综述了具身智能(EmbodiedAI)中的视觉-语言-动作(VLA)模型。具身智能需通过物理载体(如机器人、自动驾驶汽车)与环境交互,被视为实现通用人工智能(AGI)的关键路径。传统强化学习方法面临泛化性差、数据效率低等问题,而VLA模型通过融合视觉(V)、语言(L)输入直接生成动作

具身智能-VLA综述

摘要: 《ASurveyonVision-Language-ActionModelsforEmbodiedAI》系统综述了具身智能(EmbodiedAI)中的视觉-语言-动作(VLA)模型。具身智能需通过物理载体(如机器人、自动驾驶汽车)与环境交互,被视为实现通用人工智能(AGI)的关键路径。传统强化学习方法面临泛化性差、数据效率低等问题,而VLA模型通过融合视觉(V)、语言(L)输入直接生成动作

计算机视觉-Backbone超详细整理(下)-Transformer时代

本文系统梳理了计算机视觉中Transformer架构Backbone的发展历程。文章首先将深度学习模型归纳为四大架构:前馈神经网络、卷积神经网络、循环神经网络和Transformer,重点解析了Transformer的多头注意力机制原理。2021年是Transformer在CV领域的突破之年,ViT通过图像分块策略首次将Transformer成功应用于视觉任务,CLIP开创了多模态对比学习范式,S

#计算机视觉#transformer#人工智能
计算机视觉-Backbone超详细整理(上)-卷积时代

本文系统梳理了计算机视觉Backbone网络的发展历程,将其划分为"卷积时代"(1998-2022)和"Transformer时代"。在卷积时代,LeNet确立了基础架构,AlexNet验证了深度学习的可行性,VGG和GoogLeNet分别探索了网络深度和宽度的扩展。ResNet通过残差连接解决了深层网络训练难题,成为卷积时代的巅峰之作。随后出现了Wide-

#计算机视觉#人工智能
异常检测Anomalib库使用说明

摘要: Anomalib是Intel开源的一站式深度学习异常检测库,支持图像、视频、3D点云等多模态异常检测,集成25+种SOTA算法。基于PyTorch/PyTorch Lightning构建,提供统一的数据加载、模型训练、推理及可视化流程,内置MVTec等15+标准数据集支持,并支持自定义数据集。核心功能包括自动化模型训练/验证、OpenVINO/ONNX加速、超参数优化及低代码Web应用(A

多模态-8 YOLO World

YOLO-World是一种轻量级开放集合目标检测模型,基于YOLOv8架构,结合CLIP文本编码器实现多模态检测。相比GroundingDINO,它更适用于已知类别的开放检测场景,通过Vision-Language PAN实现图文特征对齐,在消费级显卡上可达70+FPS。模型采用YOLO主干网络提取图像特征,CLIP编码文本类别,最终输出检测框和类别预测。其创新点在于高效处理预定义类别列表,而非自

计算机视觉Transformer-1 基础结构

本文介绍了计算机视觉中Transformer架构的基础模型(Backbone)。首先解析了ViT的核心思想:将图像分割为16×16的块(Patch)作为输入序列,通过Transformer处理图像分类任务,并采用位置编码和[cls]标记获取全局特征。接着探讨了PVT通过特征金字塔实现多尺度特征提取,适用于检测和分割任务。然后分析了SwinTransformer的创新窗口注意力机制,通过交替使用窗口

文章图片
#计算机视觉#transformer#人工智能
计算机视觉Transformer-2 目标检测

本文系统介绍了基于Transformer的目标检测模型发展历程。首先分析DETR如何通过集合预测思想替代传统CNN检测方法,详细解析其Encoder特征编码和Decoder目标解码机制,以及匈牙利算法实现的损失计算。随后探讨Deformable DETR的两大改进:可分离注意力机制降低计算复杂度,多尺度特征融合提升小目标检测效果。最后介绍RT-DETR的创新设计,包括两阶段查询机制、高层特征注意力

文章图片
#计算机视觉#transformer#目标检测
多模态-5 BLIP2

BLIP2是一种创新的多模态模型,通过插入QueryFormer(Q-Former)模块实现预训练图像编码器和语言大模型的高效对接。该模型采用两阶段训练:首先进行视觉-文本表示训练,通过ITC、ITM和ITG三种任务学习图像与文本的语义对齐;随后进行视觉-文本生成训练,将提取的视觉特征转换为语言模型的软提示。这种方法避免了从头训练编码器,支持灵活替换不同图像/文本编码器,显著提升了模型效率和灵活性

大模型应用开发-2 上下文工程

本文探讨了大模型应用开发中的上下文工程理论。上下文工程通过动态组合系统提示词、外部知识、工具定义等六类信息,优化大模型的条件概率输出。相比静态提示词工程,上下文工程将输入视为动态信息组合,以最大化任务相关信息的互信息。文章详细阐述了上下文获取(提示工程、知识检索、动态组装)、处理(超长序列、多模态、结构化数据处理)和管理(记忆机制、压缩技术)三大环节。其中,处理环节通过注意力机制优化等方法提升信息

    共 30 条
  • 1
  • 2
  • 3
  • 请选择