logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【DeepSeek论文精读】19. 多模态:用视觉基元思考

DeepSeek团队提出了一种创新的多模态推理框架“用视觉基元思考”(Thinking with Visual Primitives),通过将点和边界框作为最小思维单元嵌入推理过程,解决传统多模态大模型(MLLMs)在空间推理任务中的指代鸿沟问题。该模型基于高效的DeepSeek-V4-Flash架构,结合自研DeepSeek-ViT,实现了7056倍的视觉令牌压缩,显著提升了推理效率。

文章图片
#人工智能
【DeepSeek论文精读】19. 多模态:用视觉基元思考

DeepSeek团队提出了一种创新的多模态推理框架“用视觉基元思考”(Thinking with Visual Primitives),通过将点和边界框作为最小思维单元嵌入推理过程,解决传统多模态大模型(MLLMs)在空间推理任务中的指代鸿沟问题。该模型基于高效的DeepSeek-V4-Flash架构,结合自研DeepSeek-ViT,实现了7056倍的视觉令牌压缩,显著提升了推理效率。

文章图片
#人工智能
【HALCON 实战入门】16. 图像匹配

本文介绍图像匹配的基本原理与实现方法,包括匹配流程、基于相关性的匹配与基于形状的匹配,并通过示例展示模型创建与目标搜索过程。同时结合图像匹配助手,说明可视化建模与参数优化方法,实现从目标提取到目标识别的过渡,为实际工程应用提供基础。

文章图片
#人工智能#计算机视觉#图像处理
【HALCON 实战入门】13. 轮廓分析与几何特征

本文围绕轮廓分析与几何特征,介绍了轮廓基本属性、几何描述方法及直线、圆、矩形拟合等内容,并通过综合示例展示了轮廓提取、筛选与拟合的完整流程。通过将离散轮廓转化为几何模型,实现了从边界表示到结构分析的过渡,为后续测量与目标识别提供基础。

文章图片
#人工智能#计算机视觉#图像处理
【DeepSeek论文精读】18. DeepSeek V4:迈入百万上下文的普惠智能

DeepSeek-V4 系列推出两款高效混合专家(MoE)模型:DeepSeek-V4-Pro 和DeepSeek-V4-Flash,均支持百万token上下文。本文详细翻译 DeepSeek-V4 技术报告。

文章图片
#人工智能
【DeepSeek论文精读】18. DeepSeek V4:迈入百万上下文的普惠智能

DeepSeek-V4 系列推出两款高效混合专家(MoE)模型:DeepSeek-V4-Pro 和DeepSeek-V4-Flash,均支持百万token上下文。本文详细翻译 DeepSeek-V4 技术报告。

文章图片
#人工智能
【医学影像 AI】基于深度学习的 ROP 严重程度筛查的可解释系统

论文 “基于深度学习的 ROP 严重程度筛查的可解释系统”,旨在通过模拟临床筛查过程,开发一种可解释的AI系统,以确定ROP的严重程度。根据临床指南,整合分期、区域和“加号病变”的存在情况,推导出ROP的严重程度,通过病变类型提供分期信息,通过病变位置提供区域信息,并通过“加号病变”分类模型判断是否存在“加号病变”。

文章图片
#人工智能#深度学习#健康医疗
【数学建模】2025年数学建模美赛:A题分析(1)Testing Time: The Constant Wear On Stairs

针对数学建模美赛 2025年 A题(楼梯的磨损模式)进行分析,每天不断更新。建立楼梯使用频率模型、方向偏好模型、同时使用人数模型。

文章图片
#python
智能家居(3)智能交互的竞品分析

智能家居系统与产品的交互方式,早已从物理按键、遥控操作发展为以触摸面板+手机APP作为主要的交互方式,并已经实现了语音交互、生物识别等新技术的导入,未来可能会流行基于视觉的交互方式、基于机器学习的无感交互方式。融合这些交互方式的多模态智能交互,将满足用户对不同环境和场景的使用需求,极大提升用户体验。......

文章图片
#交互#iot#物联网 +1
【youcans论文精读】U-Net:用于医学图像分割的 U型卷积神经网络

U-Net是一种用于医学图像分割的U型卷积神经网络。其核心创新在于对称的编码器-解码器结构,通过跳跃连接保留空间信息,实现精确分割。该网络在少量标注数据下表现优异,采用数据增强和加权损失函数提升性能。

文章图片
#人工智能#计算机视觉#论文阅读
    共 510 条
  • 1
  • 2
  • 3
  • 51
  • 请选择