logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OCR技术实战:使用tessdata进行中英文字符识别

光学字符识别(Optical Character Recognition,简称OCR)是将图片中的文字信息转换成机器可读文本的一种技术。OCR技术的应用广泛,从简单的文档扫描到复杂的图像中文字信息的提取,都能够有效工作。它涉及图像处理、模式识别和机器学习等多个领域。Tesseract OCR引擎是由HP实验室于1985年首次开发,后因开源项目受到关注,其发展史是一段从专有到开源的历程。Tesser

身份证信息识别与核验工具:神盾ICR-100M

OCR技术是一种将图像中的文字信息转换为机器编码文本的自动化技术。它的出现极大地方便了文档数字化的过程,特别是在处理大量印刷或手写文字时,能够显著减少人工录入的工作量,提升数据处理效率。OCR技术的发展历程可以追溯到20世纪中期,当时的OCR系统主要处理打字机打印的字母和数字。随着时间的推移,OCR技术逐步演进,开始支持多种字体,以及更复杂的排版和布局。到21世纪初,随着计算机视觉和深度学习的兴起

技术文档国际化:Markdown+AI翻译流水线搭建教程

本镜像基于 ModelScope 的CSANMT (神经网络翻译)模型构建,专为中文到英文翻译任务优化。相比传统统计机器翻译或通用大模型,CSANMT 在语法结构建模和语义连贯性上表现更优,生成的英文更加自然流畅,贴近母语表达习惯。系统已集成Flask Web 服务,提供直观的双栏式对照界面,左侧输入原文,右侧实时输出译文。同时开放 RESTful API 接口,便于程序调用,适用于批量文档处理场

千问3.5-2B效果对比评测:vs Qwen-VL-Chat,小模型在OCR与场景问答中表现

本文介绍了如何在星图GPU平台上自动化部署千问3.5-2B镜像,实现高效的OCR与场景问答功能。该轻量级视觉语言模型特别适合快速响应和资源受限的场景,如商品图片识别、客服机器人等标准化应用,在保持较高准确率的同时显著降低部署成本。

通义千问3-Embedding-4B部署教程:3步实现32K长文本向量化

本文介绍了基于星图GPU平台自动化部署通义千问3-Embedding-4B-向量化模型的完整流程,支持32K长文本高效向量化。通过该平台可快速搭建vLLM+Open-WebUI环境,实现模型微调与AI应用开发,适用于多语言知识库构建、长文档去重与语义检索等场景,显著提升大模型应用开发效率。

电商系统核心模块解析:购物车原理与实现实战

购物车模块是电商系统中用户购物流程的核心载体,承担着商品暂存、数量调整、价格计算及优惠应用等关键职能。它不仅影响用户体验的流畅性,还直接关系到转化率与交易完成率。在系统架构中,购物车模块通常处于前端交互与后端服务之间,需兼顾高性能读写、并发控制与数据一致性保障。其设计需考虑用户未登录与登录状态的无缝衔接、跨设备同步、多店铺支持等复杂场景。后续章节将围绕其数据结构设计、核心操作逻辑与业务策略实现逐步

RTX4090赋能Claude知识推理加速电商商品图像生成应用指南

本文探讨了RTX 4090与Claude大模型协同下的电商图像生成新范式,涵盖硬件架构、软硬协同流程、知识推理机制及端到端系统优化,实现高效自动化内容生产。

小白必看:Qwen3-ASR-0.6B语音转文字保姆级教程

本文介绍了如何在星图GPU平台上自动化部署🎙️ Qwen3-ASR-0.6B 智能语音识别镜像,实现本地化、高隐私的语音转文字功能。用户无需复杂配置,即可快速启动Web界面,将会议录音、教学音频或口播素材一键转换为带标点的可编辑文本,广泛适用于内容整理、教育笔记与职场纪要等典型场景。

#语音识别
AIGlasses_for_navigation图片分割功能实测体验

本文介绍了如何在星图GPU平台上自动化部署AIGlasses_for_navigation镜像,快速体验其核心的图片分割功能。该镜像基于YOLO分割模型,能够精准识别并分割街道场景中的盲道与斑马线,为无障碍导航、智能交通分析等应用提供了开箱即用的视觉解决方案。

Asian Beauty Z-Image Turbo高算力适配:支持NVLink多卡共享显存与梯度同步

本文介绍了如何在星图GPU平台上自动化部署Asian Beauty Z-Image Turbo镜像,实现高效的AI图像生成。该方案通过支持NVLink多卡共享显存技术,显著提升了处理高分辨率图像的能力和生成速度,特别适用于需要批量制作高质量东方美学风格人像写真的商业或创作场景。

    共 372 条
  • 1
  • 2
  • 3
  • 38
  • 请选择