logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

项目实践7—全球证件智能识别系统(国内证照调用大模型进行OCR)

本文介绍了"证照智能识别系统"后端服务的关键功能升级,重点在原有紫外防伪检测基础上新增了基于多模态大模型的深度OCR功能。针对国内驾驶证/行驶证等全息防伪证件,创新性地采用白光+红外图像的复合输入策略,通过大模型的辩证识别能力实现高精度结构化信息提取。技术方案包含:1)更新防伪检测模块返回机器可读证件类型;2)设计专用提示词实现结构化OCR输出;3)根据用户选项条件触发深度OC

文章图片
#qt#fastapi#人工智能
基于Qt/QML 5.14和YOLOv8的工业异常检测Demo:冲压点智能识别

本文介绍了一个基于Qt和OpenCV的工业质检自动化Demo项目,通过YOLOv8模型实现金属件冲压点的智能检测。项目采用Qt 5.14 QML构建现代化UI界面,支持用户框选产品区域并自动识别两个关键冲压点。技术架构采用前后端分离设计:前端QML负责图像显示和交互,后端C++处理图像裁剪、ONNX模型推理等核心功能。项目重点解决了大尺寸图像处理、坐标转换、模型推理等关键技术问题,并考虑工业环境下

文章图片
项目实践8—全球证件智能识别系统(样证库整理与检索算法微调训练)

本文针对现有国外证件识别系统中MobileNetV3特征提取模型在小样本场景下性能不足的问题,提出了基于度量学习的改进方案。首先分析了当前系统架构的局限性,指出通用预训练模型对证件细粒度特征捕捉不足的缺陷。进而提出采用孪生网络和三元组损失的度量学习方法,通过优化特征空间分布来提升模型区分能力。为支持该方案,详细设计了样证库命名规范的优化策略,引入语义化可扩展的命名格式,并提供了自动化迁移脚本实现文

文章图片
#qt#fastapi#人工智能
项目实践5—全球证件智能识别系统(优化前后端逻辑)

本文介绍了"证照智能识别系统"的两项关键功能升级。首先,在客户端界面新增了"启用版面识别"复选框,让用户自主选择是否调用耗时的大模型深度识别功能。通过修改Qt界面代码和网络请求逻辑,将用户选择状态传递给后端。其次,后端服务更新了Pydantic数据模型和API端点,实现根据客户端指令条件化执行大模型推理的能力。系统现在可在快速检索和深度识别模式间灵活切换,同

文章图片
#qt#fastapi#人工智能
Ubuntu下使用PyTurboJPEG加速图像编解码

本文介绍了基于libjpeg-turbo的高效JPEG编解码库PyTurboJPEG的安装与性能测试。该库通过SIMD指令集优化,在纯CPU环境下编解码速度较原生libjpeg提升2-6倍。实验表明,PyTurboJPEG(2.0ms/张)比OpenCV的imdecode(2.5ms/张)图像读取速度更快,特别适合对性能要求严苛的计算机视觉应用场景。安装过程包括下载编译libjpeg-turbo和

文章图片
#ubuntu#linux
基于旋转框的目标检测算法简单实操

选择轻量级的PPYoloE-R算法。具体配置文件参照PaddleDetection/configs/rotate/ppyoloe_r/ppyoloe_r_crn_s_3x_dota_ms.yml。本文使用PaddleDetection套件进行算法训练研发。标注完成后只需要将标注的数据使用opencv的最小外接矩形框进行转化即可。使用labelme工具,使用多边形方式进行标注。

文章图片
#目标检测#算法#人工智能
项目实践4—全球证件智能识别系统(调用图文多模态大模型API进行版面翻译)

本文介绍"证照智能识别系统"后端服务的重大升级,重点集成图文多模态大模型以实现深度识别与翻译功能。系统在前端开发完成后,将引入Qwen3-VL-8B大模型解决传统OCR在全球证件识别中的版式多样性、多语言支持等难题。升级方案包括:通过FastAPI新增图像处理模块,支持证件图像拼接和大模型API调用;将传统"模板匹配"升级为"内容级深度解析&quo

文章图片
#qt#fastapi#人工智能
从零打造一款专业级多光谱文档扫描与识别软件(基于 Qt 5.14 + OpenCV + FastAPI)

摘要: 本文介绍了一款基于Qt 5.14的多光谱文档扫描与识别软件开发过程。该软件旨在通过现代化界面和高效的多光谱采集设备,快速验证各类证件和文档的真伪。开发采用Qt Quick框架,集成OpenCV 4.11.0进行图像处理,并支持MSVC 2017 64位编译器。文章详细展示了从项目创建、环境配置到工程文件修改的全流程,包括Qt模块选择、OpenCV库链接及硬件通信库的集成。项目采用模块化设计

文章图片
#qt#开发语言#人工智能
项目实践13—全球证件智能识别系统(内网离线部署大模型并调用)

本文详细介绍了在完全断网的内网GPU服务器上部署Qwen3-VL-8B-Thinking多模态大模型的完整流程。服务器配置为4张NVIDIA Tesla T4显卡(64GB总显存),采用全容器化方案确保数据安全。主要内容包括:1)Ubuntu Server 24.04 LTS系统的离线安装与初始化;2)关键步骤如磁盘格式化、用户创建和SSH配置;3)非系统盘数据清理方法;4)基础离线依赖包的准备与

文章图片
#postgresql#数据库#fastapi
使用VS2022+QT+腾讯云 AI 代码助手 开发一款证件照制作工具(从环境安装到项目打包部署完整流程,内含完整代码)

本篇博文将 VS2022、QT 和 腾讯云 AI 代码助手三者结合起来,充分发挥各自的优势,为桌面应用程序开发提供一个高效、便捷、强大的开发环境,有助于快速构建出高质量、跨平台的桌面应用程序。

文章图片
#qt#visual studio
    共 136 条
  • 1
  • 2
  • 3
  • 14
  • 请选择