w3x4y 个人主页

@w3x4y

w3x4y

2025-12-30 09:51:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Matlab医学图像处理入门包：DICOM/NIfTI加载、中值与高斯去噪、直方图可视化

一套即装即用的Matlab医学图像处理小工具，内置6个真实DICOM单帧文件（如Patient32IM-0001-0001.dcm）和3个NIfTI功能像（如1000_3_glm.nii），覆盖临床常用格式。提供5个独立.m函数：untitled.m为运行入口示例；xiaobobianhuan.m支持基础坐标变换；zhifangtu.m一键生成灰度直方图，辅助判断图像对比度分布；median_fi

STC12C2052单片机LED PWM调光工程：含手动档位与呼吸灯自动模式

用STC12C2052单片机实现LED亮度精准控制，核心基于PWM脉宽调制技术——不改变供电电压或电流大小，只调节高电平时间占比（占空比），达到无频闪、响应快、线性度好的调光效果。工程提供多种运行模式：按键触发的手动多档调光（如3档/5档亮度切换）、定时渐变、呼吸灯等自动效果。所有代码采用标准C语言编写，模块清晰，包含led.c（PWM驱动与亮度设置）、xianshi.c（数码管或指示显示逻辑）、

STM32F103C8直接可用的4×4矩阵键盘驱动工程，带串口调试输出和完整Keil项目文件

这个工程专为STM32F103C8T6最小系统板设计，实现标准4×4矩阵键盘的稳定扫描与按键识别。采用行扫描法，集成GPIO初始化、硬件消抖和按键值解析逻辑，支持实时读取0–15共16个按键编码。代码结构清晰，包含两个核心扫描实现文件（stm32f103c8_keyboard_input1.c 和 stm32f103c8_keyboard_input2.c），便于对比学习或功能切换；配套sys.c

THM3060 USB智能卡读卡器完整固件工程，含CCID协议栈与ISO7816驱动源码

基于同方THM3060安全芯片的USB智能卡读卡器嵌入式固件源码包，支持标准PC/SC通信架构。内置完整USB CCID类设备协议栈，可响应主机端APDU指令并完成数据转发；集成ISO/IEC 7816-3接触式智能卡底层驱动，涵盖T0/T1协议处理、复位应答解析、APDU收发控制及错误状态管理；包含RF指令解析模块（RFCmd_Handle.c）和Crypto1加密算法实现，适配非接触式卡片交互

基于STM32F103的双模车位检测硬件套件（含可运行代码、PCB图、HMI界面与毕设全套文档）

这套STM32停车场车位检测系统以STM32F103C8T6为核心，支持红外和超声波两种传感器协同判断车位占用状态，数据通过串口实时传送到HMI屏幕显示，同时驱动本地LED指示灯并保存状态到内部Flash。资源包里包含主控板（master）和车位节点板（slave）两套独立Keil工程源码，均已适配HAL库，上电即跑，无需额外配置；提供完整PCB设计文件（含master_pcb/slave_pcb

京东风格Vue电商项目源码｜含购物车下单全流程、模块化Vuex状态管理与防重复路由跳转处理

一套开箱即用的京东UI风格电商系统，完整实现首页轮播与楼层展示、关键词搜索、商品详情查看、加入购物车、结算下单、用户登录注册及个人中心等核心流程。前端基于Vue 2/3（兼容CLI构建），路由层采用Vue Router并内置push/replace方法重写逻辑，彻底规避NavigationDuplicated报错；状态管理按业务域划分Vuex模块（home/search/detail/shopca

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的关键技术，其核心在于将音频信号转化为结构化文本并同步时间轴。基于深度学习的端到端模型（如Whisper）显著提升了识别准确率与多语种鲁棒性，具备低延迟、高可扩展等技术价值。广泛应用于在线教育、无障碍访问、视频内容检索及跨境媒体本地化等场景。结合ASR（自动语音识别）与SRT格式生成流程，本文深入解析字幕生成中的对齐优化、标点恢复与上下文纠错等关键环节，助力

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的关键技术，其核心在于将音频流实时转化为结构化文本。基于ASR（自动语音识别）和标点恢复模型，结合时间戳对齐与上下文语义修正，实现高准确率、低延迟的字幕输出。该技术显著提升视频内容可访问性与多语言传播效率，在在线教育、直播字幕、无障碍服务等场景中具备广泛工程价值。本文聚焦字幕生成中的热词对齐与实时性优化问题，探讨典型Pipeline设计与主流开源方案选型。

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的基础应用，其核心在于将音频流实时转换为结构化文本。基于深度学习的端到端模型（如Whisper、Wav2Vec 2.0）显著提升了识别准确率与多语种适配能力，具备低延迟、高鲁棒性等技术价值。广泛应用于在线教育、无障碍访问、会议记录及短视频本地化等场景。本文聚焦字幕生成中的关键环节——语音分割、标点恢复与时间对齐，并结合实际部署中常见的ASR错误修正与SRT格

#语音识别

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的基础应用，其核心在于将音频流实时转化为结构化文本。技术上依赖ASR模型识别语音、NLP模块进行标点恢复与语义断句，并结合时间对齐算法实现帧级精准同步。该技术显著提升视频可访问性、多语言传播效率及内容检索能力，在在线教育、会议记录、无障碍服务等场景中广泛应用。本文聚焦字幕生成中的时序对齐与错误校正两大关键挑战，结合实际工程案例解析主流开源工具链的落地路径。

#语音识别

共 22 条

请选择