logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

场景文字识别:从ICDAR数据集到深度学习模型实践

本文还有配套的精品资源,点击获取简介:场景文字识别是图像处理和计算机视觉的关键技术,用于从复杂背景中提取文字信息。ICDAR数据集为研究者提供了丰富的人工标注文字图片,有助于深度学习模型的训练与评估。传统方法和深度学习技术,如CNN、RNN、LSTM、CRNN、FCN、Attention机制和Transformer架构,已在该领域取得显著进展。数据集中的单字符图片经过重命...

Qwen3-VL-WEBUI部署实战:移动端GUI自动化操作演示

本文完整展示了在移动端 GUI 自动化场景下的部署与应用实践。✅ 能够准确识别移动设备界面上的各类元素;✅ 具备跨界面的任务规划与逻辑判断能力;✅ 支持与 ADB 等工具集成,形成“感知→决策→执行”闭环;✅ 单卡即可部署,适合个人开发者与中小企业快速验证想法。

设计与实现服装店货架的3D模型

在当今的3D设计领域,拥有一系列功能强大的建模软件可供选择。其中,一些业界领先软件如Autodesk 3ds Max、Blender、Maya和Cinema 4D等,因其强大的功能和灵活性而广受欢迎。Autodesk 3ds Max是工业标准之一,尤其在游戏开发和建筑可视化领域有广泛应用。Blender则因其免费和开源而受到独立开发者和小型工作室的喜爱。Maya则是动画和视觉效果制作的首选,特别是

一键启动OpenCode:AI编程助手零配置部署

本文介绍了基于星图GPU平台自动化部署opencode镜像的完整方案,实现AI编程助手的零配置一键启动。通过集成vLLM与Qwen3-4B-Instruct模型,用户可在本地高效完成代码生成、补全与错误修复等任务,适用于注重隐私保护的个人开发者与企业团队,显著提升编码效率。

Qwen3-VL-8B实战指南:在单张GPU上部署多模态模型

本文介绍如何在单张GPU上部署多模态模型Qwen3-VL-8B,实现图像理解与自然语言交互。涵盖Docker镜像启动、API调用、实际应用场景及显存优化、安全防护等生产级配置,助力低成本落地视觉语言应用。

Qwen3-14B 能否运行在笔记本电脑上?实测告诉你

本文实测在RTX 4080笔记本上运行Qwen3-14B大模型的可行性,涵盖显存优化、量化、CPU卸载等技术手段,并展示其在合同审查、知识问答和自动化任务中的实际应用,证明中型大模型可在本地高效运行。

OpenAI视频理解安防系统可疑行为智能识别

博客探讨了基于OpenAI多模态模型的视频理解技术在安防领域的应用,重点分析可疑行为智能识别的模型架构、数据处理流程及工程落地挑战,涵盖从边缘计算到云端协同的系统设计。

张正友相机标定法在VC++与OpenCV中的应用实现

OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库。自2000年由英特尔公司发起以来,OpenCV已成为计算机视觉领域内使用最广泛的库之一。它拥有超过2500个优化算法,这些算法覆盖了广泛的类别,包括图像处理、视频分析、物体检测、图像分割、面部识别等。OpenCV的算法不仅被广泛应用于学术研究,还被集成到工业产品和商业应用中

Wan2.2-T2V-5B支持的时间长度限制及突破思路

Wan2.2-T2V-5B受限于显存和训练数据,仅能生成2–5秒视频。本文分析其时间限制根源,并提出分段生成、外部记忆缓冲和流式推理三种有效突破方案,结合部署实践提升生成连贯性与实用性。

基于OpenCV的视频人脸与人眼检测实战项目

设原图像为 $ I(x, y) $,其对应的积分图 $ ii(x, y) $ 定义为:$$$$也就是说,积分图中任一点的值等于原图像中以其为右下角的所有像素之和。一旦构建完成,任意矩形区域 $ R $ 的像素和可通过四个顶点查表得到:$$$$其中:graph LRsubgraph 积分图查询示意end是不是有点像二维前缀和?没错!这就是它的精髓所在。

    共 83 条
  • 1
  • 2
  • 3
  • 9
  • 请选择