logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen-VL系列-国产大模型开眼看世界

阿里Qwen-VL系列多模态模型技术解析:Qwen-VL基于Qwen-7B架构,通过ViT-BigG/14视觉编码器和仅0.08B参数的Adapter实现图文跨模态理解,支持中英文及多图对话。Qwen2-VL创新引入动态分辨率处理机制和M-RoPE位置编码,突破传统ViT的固定分辨率限制。Qwen2.5-VL进一步强化文档解析、长视频理解能力,采用窗口注意力机制和MLP投影层优化计算效率。三代模型

文章图片
#人工智能
Qwen-VL系列-国产大模型开眼看世界

阿里Qwen-VL系列多模态模型技术解析:Qwen-VL基于Qwen-7B架构,通过ViT-BigG/14视觉编码器和仅0.08B参数的Adapter实现图文跨模态理解,支持中英文及多图对话。Qwen2-VL创新引入动态分辨率处理机制和M-RoPE位置编码,突破传统ViT的固定分辨率限制。Qwen2.5-VL进一步强化文档解析、长视频理解能力,采用窗口注意力机制和MLP投影层优化计算效率。三代模型

文章图片
#人工智能
LLaVA进化之路

LLaVA系列模型通过创新的视觉-语言对齐架构,推动了多模态AI的发展。关键技术包括:1)使用CLIP/SigLIP视觉编码器提取图像特征;2)采用MLP投影层将视觉特征映射到文本嵌入空间;3)逐步提升输入分辨率(224→672px)并支持动态切块处理;4)优化训练策略(两阶段训练、数据混合)。最新版本LLaVA-NeXT和OneVision进一步增强了OCR能力,支持多图像/视频输入,并通过Si

文章图片
#人工智能#深度学习
CLIP系列:CLIP:沟通文本和图像的桥梁

CLIP沟通文本和图像的桥梁。SOTA的视觉任务模型需要固定的监督数据对,比如-大象,-兔子。这种方式在特定数据集上能够拥有很好的性能,但是在其他未知类别上的性能就会急剧下降。这种监督形式限制了模型的通用性,因为需要额外的数据来重新训练模型。一个识别和的模型并不能识别和。传统的图像任务都是使用one-hot编码进行,每一类都有其独特的数字标签,比如背景为0,是1,是2,计算机只需要将像素分类成0,

文章图片
#人工智能#深度学习#机器学习
语义分割系列9-EncNet(pytorch实现)

本文介绍了EncNet的论文主要思想,在pytorch框架上进行模型复现,提供了EncNet的pytorch代码,并在Camvid数据集上进行测试。

文章图片
#神经网络#人工智能#深度学习 +2
语义分割系列16-BiSeNetV1(pytorch实现)

本文介绍了实时语义分割模型BiSeNetV1的论文细节和模型设计理念,在pytorch框架上复现了模型,在Camvid数据集上进行测试。

文章图片
#深度学习#人工智能#神经网络 +2
语义分割系列20-CCNet(pytorch实现)

本文介绍了CCNet论文及模型,介绍了Criss-Cross attention模块原理和实现代码。本文提供了Criss-cross attention、Recurrent Criss-Cross attention、CCNet的实现代码,并且在Camvid数据集上进行测试,所有代码基于pytorch框架。...

文章图片
#深度学习#神经网络#人工智能 +2
语义分割系列17-Non-Local Net(pytorch实现)

本文介绍了Non-Local Network论文,详细介绍了NonLocal机制和设计原理,通过与DANet对比,理解NonLocal和Attention机制的关系。并在Pytorch框架上,实现了2D的NonLocal模块,在Camvid数据集上进行测试。

文章图片
#深度学习#人工智能
3D点云分割系列1:PointNet,从Voxel-base到Point-base的进阶之路

总结一下,PointNet为3D点云分割、分类开拓了一条新的道路,也就是Point-base的方法。从对体素voxel的处理转为对点point进行直接处理,提高了效率,同时也获得十分优秀的效果。PointNet中出彩的地方包括使用T-Net来学习点云的刚性变换、使用MaxPooling来解决点云输入无序性的问题。

文章图片
#3d#人工智能#机器学习 +2
语义分割系列14-DMNet(pytorch)实现

本文介绍了DMNet,介绍了如何解决多尺度(Multi-Scale)问题,包括DCM模块的操作内容。在pytorch上进行模型复现,提供了模型代码,在数据集Camvid上进行测试。

文章图片
#计算机视觉#人工智能
    共 28 条
  • 1
  • 2
  • 3
  • 请选择