登录社区云,与社区用户共同成长
邀请您加入社区
整个折腾过程下来,UGen300 确实完成了我最初设想的事情:低功耗、本地、够快。就目前的表现来看,它作为嵌入式语音方案的潜力非常可观,比如做机密会议室的离线转写盒子。它彻底避开了云端方案的网络波动,也从物理层面上掐断了隐私泄露的可能。
ASUS UGen300 外观上和移动硬盘差不多,USB-C 接口,接上去系统就多了一个 Hailo-10H 的设备。Hailo 是以色列的芯片公司,做边缘 AI 推理起家。继 Hailo-8 之后,推出了第二代的 Hailo-10 芯片,算力是 40 TOPS,功耗极低,满载不超过 5W。和 GPU 跑 Whisper 不同,Hailo 上跑的是预编译的文件,模型已经被量化、图优化、编译进去了,
鸿蒙应用的权限管理涉及 module.json5 声明、ArkTS 侧运行时申请、Flutter 侧状态感知三个层面。本文以食界探味的麦克风权限为例,拆解权限声明配置、abilityAccessCtrl 运行时申请流程、Flutter 侧的统一权限管理封装,以及用户永久拒绝后的引导策略。
这对ASR(自动语音识别)的分段精度要求非常高,一旦句子边界判断错误,后续的翻译单元就会错乱,TTS合成出来的节奏完全对不上画面。本文将围绕短剧视频翻译配音的实际制作流程展开,从音轨分离、语音识别、字幕翻译到AI配音和多语种成片合成,系统拆解五个关键阶段,并说明每个环节的技术逻辑和实操注意事项,帮助团队更准确地评估短剧出海译制的技术路线和落地方式。测试参数的设计逻辑如下:我们选了一段典型的短剧片段
行空板K10是一款国产物联网与人工智能教学开发板,集成2.8寸彩屏、摄像头、麦克风、扬声器及多种传感器,支持离线语音识别、图像检测等功能。本实验通过ASR语音模块实现"你好小新"唤醒词识别,并利用"开灯/关灯"语音指令控制板载RGB灯。实验详解了离线语音识别技术原理,包括持续拾音/按键触发两种模式、灵敏度调节及唤醒词机制,同时提供了硬件初始化、指令添加和状态检测的完整代码框架。该方案具有响应快、无
摘要:行空板K10是一款国产物联网与人工智能教学开发板,集成2.8寸彩屏、摄像头、麦克风、扬声器及多种传感器,支持离线语音识别(ASR)、图像检测等功能。实验演示了通过唤醒词"你好小新"启动语音识别的过程,采用持续拾音模式和中文识别,包含灵敏度调节、唤醒检测等技术要点。该板无需外接设备即可实现AI项目开发,适合教育场景,具有完全离线、响应快、成本低等特点,但也存在词汇量有限、环境敏感等局限性。文中
语音识别是鸿蒙 Core Speech Kit 的核心能力之一,在 Flutter 鸿蒙项目中的接入涉及 ArkTS 侧的权限申请、ASR 引擎生命周期管理、识别结果回传,以及 Flutter 侧的调用时机控制。本文以食界探味的 SpeechRecognitionPlugin 为例,逐行拆解从 Flutter 发起调用到收到识别文本的完整链路,重点分析 pendingResult 模式和引擎生命周
基于隐马尔可夫模型(HMM)的孤立词语音识别系统
在一个 Flutter 鸿蒙项目里,语音识别、文本转语音和 Intent 跳转看起来都像“平台能力”,但它们的调用方式、生命周期、回传形式和入口位置其实完全不同。如果一开始把这些能力揉成一组“大而全的系统服务”,后面无论维护还是扩展都会很难。本文结合食界探味当前的实现,讨论为什么这三类能力应该拆开设计,以及各自更适合落在哪一层。
在语音产品开发中,经常会遇到这样的问题:用户说话语速较快时,语音识别率明显下降,甚至完全无法识别。最近有开发者在技术交流群中反馈:“CI13162 这些的语速快了,识别率不高有办法解决吗?这是一个非常普遍且具有代表性的问题。本文将从语音识别原理出发,系统分析快语速导致识别率下降的根本原因,并提供可行的解决方案和产品建议。当标准模型无法满足需求时,可以考虑定制语音模型训练。快语速导致的语音识别率下降
本文介绍了一套基于Python和AI的自动化会议纪要系统,通过两段式处理流程(语音转文字+智能摘要)解决会议录音整理耗时问题。系统首先使用Whisper API将音频转为文字(准确率约92%),再通过GPT-4/Claude等大模型清洗文本并生成结构化纪要。文章对比了不同语音识别方案,提供完整Python实现代码,包括音频压缩、API调用和提示词模板,最终可在5分钟内将1小时录音转化为包含结论、待
我有一个习惯——通勤路上用手机录音记想法。录了三个月,积压了 80 多条没整理。3 月的某个周末我花半天写了一个工具:**语音 → 转文字 → LLM 整理 → 念给我听。** 现在每天下班路上录完,到家时手机上已经有一份整理好的笔记了。这篇文章把这个工具的完整 Go 代码给你。复制下来就能跑。
5,安装claude code,打开Windows的cmd或PowerShell,输入指令安装。如果模型正常返回响应,说明配置成功。export ANTHROPIC_BASE_URL="你的API地址"export ANTHROPIC_API_KEY="你的API密钥"export ANTHROPIC_MODEL="你选择的模型"命令显示配置信息的输出。检查环境变量是否按预期生效,是排查配置问题的
1. 苹果发布Xcode 27:首次深度集成AI智能体苹果在WWDC 2026推出Xcode 27,首次将AI智能体深度集成至开发流程,支持自然语言交互、跨文件代码修改及多轮对话,可理解Swift语法并辅助构建完整应用。2. 苹果2027年将推AI版AirPods与折叠屏iPhone苹果计划2027年发布首款折叠屏iPhone、iPhone 20周年纪念版及搭载摄像头的AI版AirPods,耳机柄
ASR(语音识别):Whisper large-v3 是目前最好的开源方案TTS(语音合成):CosyVoice、Bark 提供高质量语音合成语音克隆:GPT-SoVITS 只需几秒参考音频即可克隆端到端理解:Qwen2-Audio 实现语音直接理解,无需先转文字。
继 Hailo-8 之后,推出了第二代的 Hailo-10 芯片,算力是 40 TOPS,功耗极低,满载不超过 5W。文件,模型已经被量化、图优化、编译进去了,运行时直接推送数据进去,不需要框架做任何动态计算(可以参考之前博客的介绍“首先要安装 HailoRT,这是 Hailo 的运行时库,包含设备驱动、Python 绑定、命令行工具。这就决定了它的延迟和功耗都非常稳定,但代价是得用官方提供的模型
文章摘要:本文针对企业软件接入AI API的实用场景和实施方案进行了系统梳理。作者指出,多数团队常误将AI接入简单理解为添加聊天功能,而实际上AI更应深度嵌入业务流程,如在CRM生成客户画像、在工单系统自动摘要、在电商后台优化商品描述等。文章详细阐述了10类核心功能实现方案,包括自动摘要、智能改写、内容生成、分类标签、语义搜索等,并提供了后端架构设计、环境变量配置、接口封装等具体技术方案。特别强调
**摘要:**2026年AI行业加速迭代,竞争焦点从参数规模转向场景落地能力。企业更关注模型的实际应用效果,如成本、效率和适配性。本地化与垂直场景能力成为关键,需解决行业术语理解、语音识别准确性等细节问题。以AI智慧工牌为例,通过优化采集、识别和分析环节,在通信、政务、汽车销售等领域显著提升效率与业绩。未来,企业AI的核心竞争力在于将技术转化为具体业务成果,而非单纯的技术参数比拼。
本文分享了使用AI编程工具(如ClaudeCode)的实用技巧。作者通过实际案例说明,AI编程并非简单描述需求就能得到完美代码,而是需要精确沟通:1)需求描述要具体,包含输入、输出和触发条件;2)迭代反馈需提供现象、错误信息和预期结果;3)利用完整报错信息帮助AI快速定位问题。文章还介绍了提高效率的高级功能,如AutoMemory记忆偏好、Hook自动化操作、Plugin扩展能力、Skill专业技
看到一个新的 HarmonyOS 能力之后,很多人第一反应是"我去写个插件"。但真正落地时,往往不是只多一个 .ets 文件,而是至少会涉及 Flutter 通道、ArkTS 插件、权限或配置、页面承接和调试验证。食界探味当前已经有多条现成样板链路,很适合抽出一套"新增原生能力的最小步骤"。本文就围绕这个问题,给出更实战的落地顺序——从能力分类到最终验证,共 6 步。
鸿蒙语音识别和 TTS 都属于 CoreSpeechKit 能力,但调试重点其实完全不一样。语音识别更容易卡在权限、引擎启动、回调和最终文本收口;TTS 更容易卡在文本参数、引擎复用、播报结束和主动 stop。食界探味当前已经同时接了这两条链,所以很适合拿来对比。本文逐层分析两类接口调试时应该分别盯什么,以及完整的调试检查清单。
(000300)——龙头企业指数,适合稳健投资(000905)——中盘成长指数,适合长期投资(000016)——蓝筹权重股,适合低估布局(399006)——成长型科技股,波动较大一般来说,沪深300更适合作为宽基投资的核心。沪深300指数的历史估值和点位可以作为。目前你关心的是“✅(基于历史PE分位数)📌,处于历史低估区域,这意味着。我们来看沪深300的✅内分批买入3600点以下 → 大胆加仓3
做跨平台开发(uni-app/Flutter/React Native)、Windows 办公的 iOS 开发者,大概率都踩过传统上架的坑:必须买 Mac、安装几十 G 的 Xcode、手动配置证书与描述文件,稍有疏忽就出现二进制无效、上传超时、账号风控报错。很多零基础新手刚接触 iOS 上架,光是看懂 Xcode 签名配置就要耗费一两天,小规模工作室专门采购 Mac 设备又会增加硬件成本。今天分
的组合,把曾经只属于PC极客圈的Real-ESRGAN技术, democratize 到了每一位安卓用户手中。无论是动漫插画、老照片修复,还是游戏截图放大,它都能让模糊图像。,动漫图用CUGAN,老照片用RealSR,通用场景用ESRGAN——与那些"上传云端、等待处理"的在线工具不同,这款应用。手机GPU直接参与AI运算,虽然速度不及高端显卡,但。:通用图像放大的王者,动漫、风景、人像全能修复。
Claude Code 项目配色功能详解:学会使用项目配色和视觉管理功能,让多任务开发效率大幅提升。支持多开窗口、自定义配色方案、任务管理等实用功能。
为了熟悉git命令及将写的小Demo能够管理起来方便日后查询,所以选择使用GitHub。现在我们来说说Xcode中如何使用GitHub~~~一、当然是要先有GitHub帐号并登录了(没有的注册一个就行,在此不做介绍)二、创建仓库在GitHub右上角有一个加号+,点击向下的三角,可以看到下拉菜单,选择New repository,如下图:根据界面提示,点击C...
本文系统解析语音标注的四大核心任务:ASR转写标注、TTS语料标注、说话人识别标注和语音质量评测。重点介绍了ASR转写标注的规范要点,包括逐字转写、方言处理、非言语声音标记等文字转写规范,以及句段切分的时间控制和语义完整性原则。同时对比了TextGrid、ELAN、WebVTT等不同语音标注格式的特点和适用场景,为智能语音产品开发提供高质量数据标注指导。
本文介绍了Claude AI工具的常用命令、界面功能及实战指南。主要内容包括:1)基础命令如版本查看和交互界面启动;2)Code界面功能说明;3)9个核心指令速查(/init初始化、/help帮助、/clear清屏等);4)进阶开发流程,涵盖项目初始化、代码理解、功能规划、模块执行、性能优化等环节;5)模式与模型的选择策略。文章通过命令行示例和流程图,系统展示了如何利用Claude进行高效代码开发
随着智能设备的普及,语音识别与翻译功能成为越来越多应用的基础功能,尤其是在多语言环境下。鸿蒙操作系统作为华为自主研发的操作系统,具备强大的生态系统和跨设备能力。本文将介绍如何在鸿蒙中实现语音识别与翻译功能,帮助开发者构建更智能的应用。在进行语音识别时,尽量避免背景噪音,以提高语音的识别准确率。可以通过降噪技术或使用高质量的麦克风来实现。确保翻译API支持多种语言,并根据实际需求进行配置,保证翻译结
xcode
——xcode
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net