logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FunASR本地Offline全流程实践:语种识别与语音识别模型开发(训练 - 微调 - 部署 - 调用)

本文介绍了基于FunASR框架的音频通话质量分析系统开发实践。作者针对单一语种(中文/英文)的离线音频转写需求,对比了两种语种识别方案,最终选择使用cam++模型进行语种识别。文章详细阐述了FunASR框架的核心功能(包括语音活动检测、自动语音识别等)及其存在的5个主要问题,并分享了开发思路和Python测试流程,包括模型选择、风险分析和部署方案。通过实际案例展示了语种识别和英文音频识别的具体实现

文章图片
#语音识别#人工智能
开源项目推荐:五个AI与多媒体处理工具

本文推荐五个开源AI与多媒体处理工具:1) TestSpec - 结构化测试工作流工具,支持AI辅助测试用例生成;2) mediamtx-clients-ts - 多媒体流处理客户端,支持WebRTC和QUIC协议;3) RapidOCR-API - 智能OCR识别服务,支持PDF和图像文字识别;4) Qwen3-ASR-GGUF - 高效语音转写工具,实现CPU实时转写;5) mxr-voice

文章图片
#开源#人工智能
FunASR本地Offline全流程实践:语种识别与语音识别模型开发(训练 - 微调 - 部署 - 调用)

本文介绍了基于FunASR框架的音频通话质量分析系统开发实践。作者针对单一语种(中文/英文)的离线音频转写需求,对比了两种语种识别方案,最终选择使用cam++模型进行语种识别。文章详细阐述了FunASR框架的核心功能(包括语音活动检测、自动语音识别等)及其存在的5个主要问题,并分享了开发思路和Python测试流程,包括模型选择、风险分析和部署方案。通过实际案例展示了语种识别和英文音频识别的具体实现

文章图片
#语音识别#人工智能
内网穿透常见方式推荐

● 打开代理配置>License管理页面,可以看到系统已经自动为管理员初始化了一条License记录,复制该LicenseKey备用,后续客户端配置需要。,下载最新的release包:neutrino-proxy-server.jar、neutrino-proxy-admin.zip。● 将neutrino-proxy-server.jar、neutrino-proxy-admin.zip上传至服

文章图片
#服务器#运维
音频识别入门内容

语音识别技术概述 语音识别(ASR)是将人类语音转换为文本的技术,经历了从早期模式匹配到现代深度学习的发展历程。当前ASR系统通常采用模块化pipeline处理流程,包括语音活动检测(VAD)、主识别模型、标点预测(PUNC)和文本标准化(ITN)等环节。主流的开源方案有阿里的FunASR、小红书的FireRedASR和k2-fsa的sherpa-onnx等。现代端到端模型虽然强大,但在长音频处理

#音视频#xcode#macos
LoRA 与参数高效微调:低秩适配实战指南

本文介绍了大模型微调的技术要点和参数优化方法。首先说明了项目环境配置,包括镜像设置和关键依赖安装(transformers、peft等)。重点分析了全量微调的计算成本,详细拆解了模型权重、梯度、优化器状态和中间激活值的内存需求。通过数学公式推导了梯度下降原理,解释了优化器(如AdamW)如何通过动量矩和方差矩解决训练中的方向不稳定和参数尺度差异问题。文章为高效微调大模型提供了理论基础和实践指导,特

#语音识别#人工智能#python +1
github 2FA双重认证丢失解决

摘要:文章记录了一起GitHub账户双重验证(2FA)恢复案例。用户因删除恢复码且更换手机设备导致无法登录,仅保留账号密码和SSH密钥。主要解决步骤包括:1)登录时遇到设备验证码要求;2)进入双重验证界面;3)选择SSH验证方式(使用ssh -T git@github.com verify命令);4)通过SSH密钥成功完成身份验证。该过程展示了在丢失常规2FA验证方式时,利用SSH密钥恢复账户访问

文章图片
#github
docker Error: {:plugins_not_found, [:“rabbitmq_delayed_message_exchange-3.8.0.ez“]}

rabbitmq-plugins enable rabbitmq_delayed_message_exchange-3.8.0.ez修改为rabbitmq-plugins enable rabbitmq_delayed_message_exchange不要加版本号

#java#docker#rabbitmq
docker部署rustdesk

默认情况下,hbbs 监听 21114(TCP,用于 Web 控制台,仅在 Pro 版本中可用)、21115 (TCP)、21116 (TCP/UDP) 和 21118 (TCP),hbbr 监听 21117 (TCP) 和 21119 (TCP)。21115 用于 NAT 类型测试,21116/UDP 用于 ID 注册和心跳服务,21116/TCP 用于 TCP 打孔和连接服务,21117 用于

文章图片
#docker#容器#运维
大型语言模型中 Transformer、MoE 与强化学习(GRPO/PPO/DPO)的整合研究

本文通过研习 B 站及知乎,论文等相关技术内容,旨在系统梳理并总结主流大模型架构 Transformer 的核心理论概念,深度解析其技术体系中涵盖的预训练(Pre-training)、监督微调(SFT, Supervised Fine-Tuning)、基于人类反馈的强化学习(RHLF, Reinforcement Learning from Human Feedback)等关键训练阶段,同时对各阶

文章图片
#transformer#深度学习#人工智能
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择