爆爆本爆个人主页

@m0_52919859

爆爆本爆

2024-01-23 12:35:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

全网首发！SmolVLM-256M多模态Ollama API版本完整教程：HuggingFace最强开源VLM，端到端部署神器

HuggingFace开源的SmolVLM-256M，这是一个非常轻量级多模态AI模型！目前Ollama官方还没有提供直接支持，

#人工智能

大语言模型函数调用(Function Call)

主要作用是输入内容以后先通过第一个模型（FCModel)判断你输入的prompt是否存在函数，如果存在，则会触发tool calls，执行相应的函数，然后返回bool类型数据为true，当if检测到function_called为true的时候，重新回到循环，等待你的下一次输入。text就是传进来的“你的问题”，message包括两个部分，一个是系统的system prompt，另一个则是你的输入

#语言模型 #人工智能 #自然语言处理

ETE_Voice：端到端C++智能语音对话系统

随着AI技术的发展，语音交互成为人机交互的重要方向。本文将详细介绍ETE_Voice项目——一个完整的C++端到端智能语音对话系统，集成了自动语音识别(ASR)、**大语言模型(LLM)和文本转语音(TTS)**功能。项目GitHub技术栈ETE_Voice项目展示了如何构建一个完整的端到端智能语音对话系统。通过模块化设计、先进的AI模型集成和精心的工程优化，实现了从语音输入到语音输出的自然交互体

#c++#开发语言 #人工智能

高性能流ASR C++实现

本文介绍的流式ASR系统通过环形缓冲区、VAD状态机、多线程处理池等技术，实现了高性能的实时语音识别。低延迟：流式处理，边说边识别高并发：多线程架构，充分利用多核内存高效：环形缓冲区，固定内存占用易扩展：模块化设计，方便集成新功能完整的源代码已开源在GitHub，欢迎大家使用和贡献代码。未来我将添加更多功能，如说话人分离、情感识别等。

#c++

【迭代】：本地高性能c++对话系统e2e_voice

在。

#c++

高性能 ASR Sensevoice C++ 实现

本项目实现了一个完整的实时自动语音识别(ASR)系统，从最初的Python原型成功迁移到高性能的C++实现。系统集成了SenseVoice模型，支持中文、英文、日文、韩文和粤语等多语言识别，在保持完整功能的同时实现了显著的性能提升。性能提升实时因子(RTF): 从0.09提升到0.04-0.05，提升45-55%内存使用: 从460MB降低到360MB，减少约20%启动速度: 显著提升，模型加载更

#c++#开发语言 #人工智能 +1

Yolo姿态行人检测（onnxruntime后端、量化后续写）

模型训练的时候输入的HW（高宽）就是固定的（很多模型都不支持动态输入），具体模型的tensor可以通过etron.app去查看，下面就是netron看到的模型输入[N,C,H,W]，N表示批次，C表示颜色三通道。将boxs和关键点传入后处理函数，boxs的第5维向量是置信度（x, y, w, h, conf)，前四维是框的坐标。剩下的51维是关键点，总计17个关键点，每三维为1个关键点。源码在我的

#opencv

Matcha-TTS 高性能 C++ 实现

文本输入 → 文本预处理 → 声学模型(Matcha) → 梅尔频谱 → 声码器(Vocos) → 复数频域谱 → ISTFT → Hann → 时域音频波形。

#人工智能 #语言模型

本地端到端语音(ASR-LLM-TTS)

你有没有想象过在本地快速搭建一个完整的语音对话系统？只需一台普通电脑，无需联网，甚至低算力设备也能流畅运行。这篇博客将手把手带你实现一个端到端的语音交互系统，从语音输入到语音回复，全链路完整展示。ASR-LLM-TTS Onnx 项目实现一个在本地运行的端到端语音对话系统，能够完成“语音 -> 文本 -> 对话回复 -> 语音”的全过程。项目地址：https://github.com/muggle

#人工智能 #语言模型 #语音识别

大语言模型函数调用(Function Call)

#语言模型 #人工智能 #自然语言处理

共 16 条

请选择