logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Matlab医学图像处理入门包:DICOM/NIfTI加载、中值与高斯去噪、直方图可视化

一套即装即用的Matlab医学图像处理小工具,内置6个真实DICOM单帧文件(如Patient32IM-0001-0001.dcm)和3个NIfTI功能像(如1000_3_glm.nii),覆盖临床常用格式。提供5个独立.m函数:untitled.m为运行入口示例;xiaobobianhuan.m支持基础坐标变换;zhifangtu.m一键生成灰度直方图,辅助判断图像对比度分布;median_fi

STC12C2052单片机LED PWM调光工程:含手动档位与呼吸灯自动模式

用STC12C2052单片机实现LED亮度精准控制,核心基于PWM脉宽调制技术——不改变供电电压或电流大小,只调节高电平时间占比(占空比),达到无频闪、响应快、线性度好的调光效果。工程提供多种运行模式:按键触发的手动多档调光(如3档/5档亮度切换)、定时渐变、呼吸灯等自动效果。所有代码采用标准C语言编写,模块清晰,包含led.c(PWM驱动与亮度设置)、xianshi.c(数码管或指示显示逻辑)、

STM32F103C8直接可用的4×4矩阵键盘驱动工程,带串口调试输出和完整Keil项目文件

这个工程专为STM32F103C8T6最小系统板设计,实现标准4×4矩阵键盘的稳定扫描与按键识别。采用行扫描法,集成GPIO初始化、硬件消抖和按键值解析逻辑,支持实时读取0–15共16个按键编码。代码结构清晰,包含两个核心扫描实现文件(stm32f103c8_keyboard_input1.c 和 stm32f103c8_keyboard_input2.c),便于对比学习或功能切换;配套sys.c

THM3060 USB智能卡读卡器完整固件工程,含CCID协议栈与ISO7816驱动源码

基于同方THM3060安全芯片的USB智能卡读卡器嵌入式固件源码包,支持标准PC/SC通信架构。内置完整USB CCID类设备协议栈,可响应主机端APDU指令并完成数据转发;集成ISO/IEC 7816-3接触式智能卡底层驱动,涵盖T0/T1协议处理、复位应答解析、APDU收发控制及错误状态管理;包含RF指令解析模块(RFCmd_Handle.c)和Crypto1加密算法实现,适配非接触式卡片交互

基于STM32F103的双模车位检测硬件套件(含可运行代码、PCB图、HMI界面与毕设全套文档)

这套STM32停车场车位检测系统以STM32F103C8T6为核心,支持红外和超声波两种传感器协同判断车位占用状态,数据通过串口实时传送到HMI屏幕显示,同时驱动本地LED指示灯并保存状态到内部Flash。资源包里包含主控板(master)和车位节点板(slave)两套独立Keil工程源码,均已适配HAL库,上电即跑,无需额外配置;提供完整PCB设计文件(含master_pcb/slave_pcb

京东风格Vue电商项目源码|含购物车下单全流程、模块化Vuex状态管理与防重复路由跳转处理

一套开箱即用的京东UI风格电商系统,完整实现首页轮播与楼层展示、关键词搜索、商品详情查看、加入购物车、结算下单、用户登录注册及个人中心等核心流程。前端基于Vue 2/3(兼容CLI构建),路由层采用Vue Router并内置push/replace方法重写逻辑,彻底规避NavigationDuplicated报错;状态管理按业务域划分Vuex模块(home/search/detail/shopca

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的关键技术,其核心在于将音频信号转化为结构化文本并同步时间轴。基于深度学习的端到端模型(如Whisper)显著提升了识别准确率与多语种鲁棒性,具备低延迟、高可扩展等技术价值。广泛应用于在线教育、无障碍访问、视频内容检索及跨境媒体本地化等场景。结合ASR(自动语音识别)与SRT格式生成流程,本文深入解析字幕生成中的对齐优化、标点恢复与上下文纠错等关键环节,助力

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的关键技术,其核心在于将音频流实时转化为结构化文本。基于ASR(自动语音识别)和标点恢复模型,结合时间戳对齐与上下文语义修正,实现高准确率、低延迟的字幕输出。该技术显著提升视频内容可访问性与多语言传播效率,在在线教育、直播字幕、无障碍服务等场景中具备广泛工程价值。本文聚焦字幕生成中的热词对齐与实时性优化问题,探讨典型Pipeline设计与主流开源方案选型。

字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的基础应用,其核心在于将音频流实时转换为结构化文本。基于深度学习的端到端模型(如Whisper、Wav2Vec 2.0)显著提升了识别准确率与多语种适配能力,具备低延迟、高鲁棒性等技术价值。广泛应用于在线教育、无障碍访问、会议记录及短视频本地化等场景。本文聚焦字幕生成中的关键环节——语音分割、标点恢复与时间对齐,并结合实际部署中常见的ASR错误修正与SRT格

#语音识别
字幕生成技术原理与工程实践指南

字幕生成是语音识别与自然语言处理交叉领域的基础应用,其核心在于将音频流实时转化为结构化文本。技术上依赖ASR模型识别语音、NLP模块进行标点恢复与语义断句,并结合时间对齐算法实现帧级精准同步。该技术显著提升视频可访问性、多语言传播效率及内容检索能力,在在线教育、会议记录、无障碍服务等场景中广泛应用。本文聚焦字幕生成中的时序对齐与错误校正两大关键挑战,结合实际工程案例解析主流开源工具链的落地路径。

#语音识别
    共 22 条
  • 1
  • 2
  • 3
  • 请选择