logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于MATLAB GUI的语音识别系统设计与实现

简介:本项目是一个基于MATLAB图形用户界面(GUI)的语音识别工具,融合动态时间规整(DTW)和隐马尔科夫模型(HMM)技术,实现语音信号的预处理、特征提取、模型训练与识别全过程。系统提供直观交互界面,支持语音输入与实时识别结果展示,涵盖VAD检测、MFCC特征提取、K-means聚类、Baum-Welch模型训练及DTW匹配等核心环节,适用于语音识别教学与基础应用开发。

TPshop商城系统源码深度解析与应用

TPshop是一个基于PHP语言开发的开源电商平台,它采用当前流行的Web开发技术,集成了商品管理、订单处理、支付系统、用户管理等多项功能。该系统不仅适用于中小型企业和个人开发者,而且由于其良好的扩展性,也被用作定制开发的基石。PHP从PHP 5版本开始,提供了对面向对象编程(OOP)的全面支持。类是面向对象编程中的基本构建块,它封装了属性和方法。php// 定义类// 构造方法// 方法// 创

高效低耗:lora-scripts助力消费级显卡完成LoRA微调任务

借助LoRA技术和自动化工具lora-scripts,普通用户也能在消费级显卡上高效完成模型微调。通过低秩适配,仅训练少量参数即可实现风格迁移或语言定制,大幅降低算力需求。配合高质量数据与合理配置,RTX 3090甚至3060均可产出可用模型,让个人开发者轻松拥有专属AI能力。

#LoRA
Qwen3-14B 在游戏NPC对话生成中的情境适应性

本文探讨Qwen3-14B如何通过32K长上下文和Function Calling技术,实现游戏NPC的情境感知与动态响应,解决传统NPC记忆短、反应僵化等问题,支持本地部署与多任务协同,推动AI NPC向智能化、共演化方向发展。

Qwen3-VL-8B输出格式控制:如何定制化生成图文回答?

本文介绍如何利用Qwen3-VL-8B实现图文信息的结构化输出,涵盖JSON、Markdown表格等格式控制方法,结合提示工程与实战代码,帮助开发者将多模态模型无缝集成到电商、内容审核等业务系统中。

深入探索WebRTC技术实现对等文件传输

WebRTC(Web Real-Time Communication)是一种支持网页浏览器进行实时语音对话或视频对话的API。它由Google发起,2011年开源,历经多年发展,已经成为众多实时通信应用的核心技术。WebRTC通过开放的网络标准为浏览器提供实时语音、视频和通用数据通信功能,无需安装插件或第三方软件。WebRTC采用点对点(P2P)网络模型,这意味着两个通信节点之间可以直接相连,无需

vLLM在CUDA 12.1环境下的安装与配置

基于Ubuntu 22.04和RTX3080,结合CUDA 12.1与Python 3.11虚拟环境,通过uv工具创建隔离环境并手动下载适配的vLLM wheel包完成安装,解决setuptools缺失问题,最终验证模型推理正常。

evalvid-2.7视频分析工具包实战指南

evalvid-2.7(Evaluation of Video Quality in Data networks)是一套面向网络视频传输质量评估的开源工具包,专为NS-2/NS-3仿真环境设计,支持端到端视频QoS分析。其核心由三部分构成:视频编码器接口(基于FFmpeg调用H.264/MPEG-4)、网络级trace记录模块(pkttrace机制)和解码后质量评估引擎(PSNR、SSIM计算)。

基于MATLAB GUI的语音识别系统设计与实现

简介:本项目是一个基于MATLAB图形用户界面(GUI)的语音识别工具,融合动态时间规整(DTW)和隐马尔科夫模型(HMM)技术,实现语音信号的预处理、特征提取、模型训练与识别全过程。系统提供直观交互界面,支持语音输入与实时识别结果展示,涵盖VAD检测、MFCC特征提取、K-means聚类、Baum-Welch模型训练及DTW匹配等核心环节,适用于语音识别教学与基础应用开发。

无需高端显卡:gpt-oss-20b让16GB内存实现大模型推理

gpt-oss-20b通过稀疏激活与INT8量化,使210亿参数模型可在16GB内存设备上本地运行,无需高端GPU。结合Harmony结构化输出机制,提升实用性与可控性,适用于教育、医疗等隐私敏感场景,推动轻量化、离线化AI落地。

    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择