logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习系列80:Pike-RAG解析

github地址在https://github.com/microsoft/PIKE-RAG。

文章图片
#深度学习#人工智能
【深度学习系列82】joyagent上手体验

JoyAgent-JDGenie是一款支持自定义扩展的多智能体框架。本文介绍了手动安装部署的步骤:1)前端UI通过start.sh启动;2)工具服务需配置.env文件并修改搜索接口代码;3)后端服务通过修改application.yml并执行build/start脚本;4)MCP服务需配置服务器地址并启动客户端。用户可通过实现BaseTool接口创建自定义智能体,如天气查询Agent,并注册到框架

#深度学习
深度学习系列76:流式tts的一个简单实现

使用queue,producer不断向queue中添加audio,然后consumer不断从queue中消费audio。下面的样例使用melo来生成语音,需要先下载melo.tts。

文章图片
#深度学习#人工智能
深度学习系列74:语音中的mel谱

一个人说一句话,其 waveform 可以很不一样,但是 spectrogram 基本上会相似,甚至有人可以通过 spectrogram 来判断说话的内容。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。DFT(Discrete Fourier Transform)是将连续音频信号转换为

文章图片
#深度学习#语音识别#人工智能
深度学习系列77:tts技术原理

tts为text-to-speech,asr为Automatic Speech Recognition,即speech-to-text。

文章图片
#深度学习#人工智能
【深度学习系列82】joyagent上手体验

JoyAgent-JDGenie是一款支持自定义扩展的多智能体框架。本文介绍了手动安装部署的步骤:1)前端UI通过start.sh启动;2)工具服务需配置.env文件并修改搜索接口代码;3)后端服务通过修改application.yml并执行build/start脚本;4)MCP服务需配置服务器地址并启动客户端。用户可通过实现BaseTool接口创建自定义智能体,如天气查询Agent,并注册到框架

#深度学习
强化学习系列2:Open AI的gym框架、baselines和Spinning Up

1. gym介绍Openai gym 是一个用于开发和比较 强化学习算法的工具包,github地址点击这里。gym安装十分简单:pip install gymgym 的核心接口是 Env,作为统一的环境接口。Env 包含下面几个核心方法:1、reset(self):重置环境的状态,返回观察。2、step(self,action):推进一个时间步长,返回 observation,rewa...

深度学习系列64:数字人wav2lip详解

总体步骤差不多,但是相比于openHeygen要简化很多第一步,加载视频/图片和音频/tts。同样是用melspectrogram将wav文件拆分成mel_chunks。第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)

文章图片
#深度学习#人工智能
深度学习系列54:LABEL-STUDIO进行半自动化目标检测标注

打开浏览器访问 http://localhost:8080/ ,建立一个新项目。此时不要着急save,需要先点击后面的Labeling Setup连接第一步的目标检测服务。看到如下 Connected 就说明后端推理服务添加成功。在mmdetection文件夹中,执行。另开一个terminal,执行。

文章图片
#深度学习#目标检测#人工智能
    共 80 条
  • 1
  • 2
  • 3
  • 8
  • 请选择