logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Cleer Arc5耳机会议纪要自动生成技术设想

本文提出在Cleer Arc5耳机中构建端侧全自动会议纪要生成系统,涵盖高精度拾音、本地语音识别、轻量级语义理解与多设备协同,实现低延迟、零上传、高隐私的智能会议辅助功能,打造个人化AI协作者。

视觉语言新标杆!Qwen3-VL-30B实现图文理解与推理的完美融合

Qwen3-VL-30B通过端到端多模态建模,实现图像与语言的深度理解与推理,支持跨模态对齐、链式思维和稀疏激活架构,在金融、医疗、自动驾驶等场景展现强大能力,兼顾高性能与部署效率。

GPT-OSS-20B批量推理优化:提高吞吐量的关键设置

本文探讨如何在消费级显卡上优化GPT-OSS-20B的批量推理性能,提升吞吐量并降低延迟。核心方法包括稀疏激活、动态批处理、KV Cache管理及PagedAttention技术。结合vLLM等高效推理框架,可在16GB显存设备上实现高并发、低延迟的服务部署,适合个人开发者与中小企业构建可持续的大模型应用。

音诺ai翻译机联动RK3566与本地ASR识别支持粤语跟读评分

音诺AI翻译机基于RK3566平台实现本地化粤语ASR与跟读评分,融合Conformer模型、声学特性优化及NPU加速技术,支持教育、医疗等多场景应用。

音诺ai翻译机运用SPH0645LM4H与相位校正提升一致性

音诺AI翻译机采用SPH0645LM4H麦克风阵列,通过自适应相位校正算法解决制造公差与温漂导致的相位失配问题,提升远场拾音、波束成形与语音识别性能。

ComfyUI与Windows Subsystem for Linux集成:双系统优势结合

本文介绍如何在Windows Subsystem for Linux(WSL2)中部署ComfyUI,结合Windows图形界面与Linux强大AI工具链,实现高效、稳定的本地AIGC工作流。涵盖环境搭建、GPU加速、文件系统优化及安全配置等关键实践。

#ComfyUI
WebSocket协议实战:客户端与服务器通信详解

WebSocket是一种在单个TCP连接上进行全双工通信的协议,它提供了浏览器和服务器间进行双向实时通信的能力。这一协议的出现,填补了HTTP协议在实时通信方面的不足,使得Web应用能够像桌面应用那样,实现即时的数据交互。全双工通信允许数据在两个方向上同时传输,即客户端与服务器端可以同时发送和接收数据,没有发送或接收的限制。这种通信方式使得通信双方可以实现真正的即时双向交互。在WebSocket协

快手特效制作工具:视频编辑与创意增强

在视频编辑的初阶阶段,掌握基础剪辑工具是首要任务。这包括了解如何裁剪视频、调整视频顺序、合并视频段落等。基础剪辑工具通常包括剪刀工具、拖放界面、轨道合并和拆分功能。通过熟练使用这些工具,编辑者可以构建出视频的基本框架。在使用剪辑工具时,首先需要导入视频文件到视频编辑软件中。接着,选择视频轨道上的一个片段,使用剪刀工具将其分割成所需的部分。裁剪掉不必要的内容后,利用拖放界面将视频片段按照故事线索重新

Qwen-Image在PPT美化中的智能辅助作用

Qwen-Image基于MMDiT架构,具备精准语义理解、高清原生输出与局部可编辑能力,有效解决PPT图文不匹配、设计门槛高、修改成本大等痛点,实现智能图像生成与编辑,提升内容创作效率。

音诺ai翻译机通过RK3566离线语音识别引擎实现本地指令执行

音诺AI翻译机基于瑞芯微RK3566芯片和自研轻量化语音识别引擎,实现无需联网的本地语音控制。通过NPU加速、低功耗设计与窄域语义识别,设备在无网络环境下仍可快速准确响应指令,保障隐私与实时性,展现边缘智能在翻译设备中的落地应用。

    共 55 条
  • 1
  • 2
  • 3
  • 6
  • 请选择