
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了sigmastar 平台 IPU Toolchain StarShuttle快速入门的流程,包含教学视频,供大家参考

本次开源的声音事件检测算法来源于Aibaba开源的语音算法仓库, 具有轻量级、稳定性高等特点。接下来详细介绍如何在sigmstar D1ssd2355开发板上如何部署的详细步骤。

语音分离是指从混合的音频信号中提取出独立的语音源, 例如, 在多人会议录音中, 分离出每个说话人的声音。 本次开源的语音分离算法来源于SpeechBrain发布的Pytorch开源工具包, 该工具包集成了多种先进的音频处理技术, 详情可参考Speechbrain官方说明,可以进一步的参考该文章实战起来。

MobileSAM是一种针对移动设备优化的轻量级图像万物分割模型, 能够实现对任意物体的识别与分割。它是在SAM(Segment Anything Model)基础上进行优化的, 旨在保持高质量分割结果的同时, 降低计算复杂度和内存占用, 以便在资源受限的移动设备上能够高效运行

¶vits是一个端到端的语音合成算法, 它使用预先训练好的语音编码器直接将文本转换为语音, 无需额外的中间步骤或者特征提取。https://pan.baidu.com/s/1pN-wL_5wB9gYMAr2Mh7Jvg, 密码:vits。
OpenDLA是一套面向SGS平台的AI模型部署工具包,包含OpenDLAModel(模型转换工具)和OpenDLA(离线模型运行示例)。OpenDLAModel提供ONNX模型、参数配置、数据处理脚本及转换命令脚本,支持目标检测、OCR、语音处理等11类算法;OpenDLA提供C/C++实现示例。该套件依赖IPU_SDK和Linux_SDK,支持多款芯片平台,不同平台对算法的支持因算子兼容性和算

IPUToolchain是一套AI模型部署工具,支持将ONNX、TensorFlow等模型转换为IPU模型,并提供量化、推理及精度分析功能。OpenDLAModel基于该工具链,提供从模型修改到IPU部署的全套代码。开发者可通过Comake社区获取相关资源和文档,快速实现AI模型在IPU芯片上的部署。

该人脸识别算法包含检测、属性识别、表情识别、特征提取等模块,能判断眼镜、性别等5种属性和7种表情。算法精度达99.4%(TAR@FAR=2.3%),各模块处理耗时7.4-19.2ms。流程分为注册(创建特征底库)和识别(特征比对)两个阶段,提供16个API接口实现全流程功能。系统支持多种输入格式和分辨率,适用于开发者快速集成人脸识别能力。

本文档介绍了COMAKEPID1开发板的快速入门指南,包括硬件连接、AlkaidSDK环境搭建和示例程序开发。该开发板基于Pcupid系列SoC芯片,支持丰富的外设功能,适用于智能音频、小屏显示、视觉类及机器人等产品开发。文档详细说明了SDK获取、编译环境搭建、镜像烧写流程,并提供了点屏、传感器识别、GPIO控制、音频采集等示例程序。开发者可参考Comake社区获取完整资料,快速启动项目开发。

本文档介绍了COMAKEPID1开发板的快速入门指南,包括硬件连接、AlkaidSDK环境搭建和示例程序开发。该开发板基于Pcupid系列SoC芯片,支持丰富的外设功能,适用于智能音频、小屏显示、视觉类及机器人等产品开发。文档详细说明了SDK获取、编译环境搭建、镜像烧写流程,并提供了点屏、传感器识别、GPIO控制、音频采集等示例程序。开发者可参考Comake社区获取完整资料,快速启动项目开发。
