logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态-8 YOLO World

YOLO-World是一种轻量级开放集合目标检测模型,基于YOLOv8架构,结合CLIP文本编码器实现多模态检测。相比GroundingDINO,它更适用于已知类别的开放检测场景,通过Vision-Language PAN实现图文特征对齐,在消费级显卡上可达70+FPS。模型采用YOLO主干网络提取图像特征,CLIP编码文本类别,最终输出检测框和类别预测。其创新点在于高效处理预定义类别列表,而非自

计算机视觉Transformer-1 基础结构

本文介绍了计算机视觉中Transformer架构的基础模型(Backbone)。首先解析了ViT的核心思想:将图像分割为16×16的块(Patch)作为输入序列,通过Transformer处理图像分类任务,并采用位置编码和[cls]标记获取全局特征。接着探讨了PVT通过特征金字塔实现多尺度特征提取,适用于检测和分割任务。然后分析了SwinTransformer的创新窗口注意力机制,通过交替使用窗口

文章图片
#计算机视觉#transformer#人工智能
计算机视觉Transformer-2 目标检测

本文系统介绍了基于Transformer的目标检测模型发展历程。首先分析DETR如何通过集合预测思想替代传统CNN检测方法,详细解析其Encoder特征编码和Decoder目标解码机制,以及匈牙利算法实现的损失计算。随后探讨Deformable DETR的两大改进:可分离注意力机制降低计算复杂度,多尺度特征融合提升小目标检测效果。最后介绍RT-DETR的创新设计,包括两阶段查询机制、高层特征注意力

文章图片
#计算机视觉#transformer#目标检测
多模态-5 BLIP2

BLIP2是一种创新的多模态模型,通过插入QueryFormer(Q-Former)模块实现预训练图像编码器和语言大模型的高效对接。该模型采用两阶段训练:首先进行视觉-文本表示训练,通过ITC、ITM和ITG三种任务学习图像与文本的语义对齐;随后进行视觉-文本生成训练,将提取的视觉特征转换为语言模型的软提示。这种方法避免了从头训练编码器,支持灵活替换不同图像/文本编码器,显著提升了模型效率和灵活性

大模型应用开发-2 上下文工程

本文探讨了大模型应用开发中的上下文工程理论。上下文工程通过动态组合系统提示词、外部知识、工具定义等六类信息,优化大模型的条件概率输出。相比静态提示词工程,上下文工程将输入视为动态信息组合,以最大化任务相关信息的互信息。文章详细阐述了上下文获取(提示工程、知识检索、动态组装)、处理(超长序列、多模态、结构化数据处理)和管理(记忆机制、压缩技术)三大环节。其中,处理环节通过注意力机制优化等方法提升信息

计算机视觉Transformer-2 目标检测

本文系统介绍了基于Transformer的目标检测模型发展历程。首先分析DETR如何通过集合预测思想替代传统CNN检测方法,详细解析其Encoder特征编码和Decoder目标解码机制,以及匈牙利算法实现的损失计算。随后探讨Deformable DETR的两大改进:可分离注意力机制降低计算复杂度,多尺度特征融合提升小目标检测效果。最后介绍RT-DETR的创新设计,包括两阶段查询机制、高层特征注意力

文章图片
#计算机视觉#transformer#目标检测
计算机视觉Transformer-2 目标检测

本文系统介绍了基于Transformer的目标检测模型发展历程。首先分析DETR如何通过集合预测思想替代传统CNN检测方法,详细解析其Encoder特征编码和Decoder目标解码机制,以及匈牙利算法实现的损失计算。随后探讨Deformable DETR的两大改进:可分离注意力机制降低计算复杂度,多尺度特征融合提升小目标检测效果。最后介绍RT-DETR的创新设计,包括两阶段查询机制、高层特征注意力

文章图片
#计算机视觉#transformer#目标检测
多模态-11 Qwen2-VL

Qwen2-VL是Qwen-VL的升级版多模态模型,主要改进包括:支持任意分辨率图像输入、扩展视频处理能力、增加多语言支持(日语、韩语等8种语言)以及提升视觉任务范围。模型结构由视觉编码器和语言大模型组成,采用2D-RoPE和M-RoPE技术处理时空信息。训练采用三阶段方法,使用包含1.4T token的高质量多模态数据集。Qwen2-VL提供2B、8B和72B三种参数规模版本,适用于不同应用场景

文章图片
多模态-5 BLIP2

BLIP2是一种创新的多模态模型,通过插入QueryFormer(Q-Former)模块实现预训练图像编码器和语言大模型的高效对接。该模型采用两阶段训练:首先进行视觉-文本表示训练,通过ITC、ITM和ITG三种任务学习图像与文本的语义对齐;随后进行视觉-文本生成训练,将提取的视觉特征转换为语言模型的软提示。这种方法避免了从头训练编码器,支持灵活替换不同图像/文本编码器,显著提升了模型效率和灵活性

大模型基础理论-BPE/DeepNorm/FlashAttention/GQA/RoPE

大模型基础理论介绍:1.BPE分词2.DeepNorm3.FlashAttention4.GQA5.RoPE

文章图片
#语言模型#transformer
    共 26 条
  • 1
  • 2
  • 3
  • 请选择