logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习系列74:语音中的mel谱

一个人说一句话,其 waveform 可以很不一样,但是 spectrogram 基本上会相似,甚至有人可以通过 spectrogram 来判断说话的内容。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。DFT(Discrete Fourier Transform)是将连续音频信号转换为

文章图片
#深度学习#语音识别#人工智能
深度学习系列77:tts技术原理

tts为text-to-speech,asr为Automatic Speech Recognition,即speech-to-text。

文章图片
#深度学习#人工智能
【深度学习系列82】joyagent上手体验

JoyAgent-JDGenie是一款支持自定义扩展的多智能体框架。本文介绍了手动安装部署的步骤:1)前端UI通过start.sh启动;2)工具服务需配置.env文件并修改搜索接口代码;3)后端服务通过修改application.yml并执行build/start脚本;4)MCP服务需配置服务器地址并启动客户端。用户可通过实现BaseTool接口创建自定义智能体,如天气查询Agent,并注册到框架

#深度学习
深度学习系列29:VQ-GAN模型

1. 介绍发表于2021年,来自德国海德堡大学IWR研究团队。最大的亮点在于其可以生成百万像素级别的图片。VQGAN的突出点在于其使用codebook来离散编码模型中间特征,并且使用Transformer(GPT-2模型)作为编码生成工具。codebook的思想在VQVAE中已经提出,而VQGAN的整体架构大致是将VQVAE的编码生成器从pixelCNN换成了Transformer,并且在训练过程

文章图片
#深度学习#transformer#计算机视觉
强化学习系列2:Open AI的gym框架、baselines和Spinning Up

1. gym介绍Openai gym 是一个用于开发和比较 强化学习算法的工具包,github地址点击这里。gym安装十分简单:pip install gymgym 的核心接口是 Env,作为统一的环境接口。Env 包含下面几个核心方法:1、reset(self):重置环境的状态,返回观察。2、step(self,action):推进一个时间步长,返回 observation,rewa...

深度学习系列64:数字人wav2lip详解

总体步骤差不多,但是相比于openHeygen要简化很多第一步,加载视频/图片和音频/tts。同样是用melspectrogram将wav文件拆分成mel_chunks。第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)

文章图片
#深度学习#人工智能
深度学习系列54:LABEL-STUDIO进行半自动化目标检测标注

打开浏览器访问 http://localhost:8080/ ,建立一个新项目。此时不要着急save,需要先点击后面的Labeling Setup连接第一步的目标检测服务。看到如下 Connected 就说明后端推理服务添加成功。在mmdetection文件夹中,执行。另开一个terminal,执行。

文章图片
#深度学习#目标检测#人工智能
强化学习系列7:无模型的蒙特卡洛法

1. 无模型问题在很多时候,我们无法得知模型信息,比如前几节的蛇棋中,我们不知道棋盘梯子的信息和骰子的信息,用数学化的方法来说,就是我们用于决策的智能体不知道状态转移概率PPP。2. 采样的方法2.1 计算公式当我们无法得知PPP的时候,一个直观的想法就是使用大量的采样去进行估计。为了方便,我们把策略迭代算法中策略评估的公式进行一下拆解:Q=P(R+γV)Q=P(R+\gamma V)...

    共 109 条
  • 1
  • 2
  • 3
  • 11
  • 请选择