logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

扩散模型理论与公式推导——详细过程速览与理解加深

推荐在简单了解扩散模型原理后再来看本篇文章,加深对理论的理解,本篇只叙述有关扩散模型公式理论的推导~

#图像处理#人工智能#学习 +1
变分自编码器 VAE 超详解,从简单公式推导到模型结构到模型理解

理解了我们的核心公式和要做的事情后,我们就可以着手搭建模型了。首先我们需要做的是确定 z。VAE 是如何去描述潜在空间 z 的呢?它认为,z 根本没有一种合适的阐述方法,而是直接假定 z 的样本可以从简单的分布中抽取,即标准正态分布N(0, I),其中 I 是单位矩阵。因为,任何 d 维度的分布都可以用一组 d 个服从正态分布的变量,通过足够复杂的函数进行映射从而生成。其中的原理可以参考[这篇论文

文章图片
#学习#人工智能#语音识别
Speech Separation,语音分离详解——语音信号处理学习(七)

本文主要介绍了语音分离任务中的评估指标,包括信噪比(SNR)和幅度不变信号失真比(SI-SDR/SI-SNR)等;同时讨论了样本排列问题、深度聚类、PIT以及TasNet等技术应用在语音分离任务中的优缺点和发展。此外,还探讨了未知说话人数、多麦克风、视觉信息和任务导向优化等方面的研究。

#学习#人工智能
【原版】流模型 Flow 超详解,基于 Flow 的生成式模型,从思路到基础到公式推导到模型理解与应用(Flow-based Generative Model)

既然得到了 π of z 和 p of x 之间的关系,我们再回到刚刚的目标函数上,因此我们就可以对目标函数进行变换:由:以及之前推导出的核心公式,可得:进行变量替换再取 log,得:由此便得到了我们最终需要最大化的式子,也就是目标函数。可以计算 det(J_G):我们知道了生成器 G,理论上知道了 z 怎么变成 x 就很容易计算其雅可比矩阵的行列式。

文章图片
#人工智能#学习#语音识别
软件测试与质量保证 - 复习与面试题库(from hitwh)

由于和项目组的相互独立,SQA工程师发现的问题不能得到及时有效的解决。若有一个计算类型的程序,它的输入量只有—个X,其范围是[-1.0,1.0],现从输入的角度考虑一组测试用例:-1.001,-1.0,1.0,1.001。在某大学学籍管理信息系统中,假设学生年龄的输入范围为16-40,则根据黑盒测试中的等价类划分技术,下面划分正确的是(可划分为1个有效等价类,2个无效等价类)凭经验或直觉推测可能的

#面试#职场和发展#可用性测试 +2
变分自编码器 VAE 超详解,从简单公式推导到模型结构到模型理解

理解了我们的核心公式和要做的事情后,我们就可以着手搭建模型了。首先我们需要做的是确定 z。VAE 是如何去描述潜在空间 z 的呢?它认为,z 根本没有一种合适的阐述方法,而是直接假定 z 的样本可以从简单的分布中抽取,即标准正态分布N(0, I),其中 I 是单位矩阵。因为,任何 d 维度的分布都可以用一组 d 个服从正态分布的变量,通过足够复杂的函数进行映射从而生成。其中的原理可以参考[这篇论文

文章图片
#学习#人工智能#语音识别
记录Git无法连接Github(443报错)的一种可能——代理问题

然后我怀疑是网络环境问题,是不是哪次更新把我 clash 的 Socks5 给 ban 了,但是查了相关的资料好像又没看出个所以然,这下真暴露我的计网知识的匮乏了(悲)结果再次使用 https 进行克隆的时候这回就 ok 了,并且修改回原来的 SOCK5(不删除 https 代理)确实是无法克隆的。可以看到我之前是设置了对 github 使用 http 协议访问的时候进行代理,并且还是用的 Soc

#git#github
HMM(Hidden Markov Model)详解——语音信号处理学习(三)(选修一)

在过去,我们可以使用统计模型来做语音识别。给定输入语音序列X,我们只需要找到最大概率的输出文字Y就可以了,也就是穷举所有可能的Y,找到一个Y*使得 P(YX) 最大化。我们也把这个过程叫作解码(decode),公式如下:穷举需要非常好的演算法,这个问题太复杂。好在我们可以使用贝叶斯定理对其进行变换,变换后的公式如下。由于 P(X) 与我们的解码任务是无关的,因为不会随着Y变化而变化。所以我们只需要

#学习#语音识别#人工智能
语音识别之Listen, Attend and Spell(LAS)模型详解——语音信号处理学习(三)

在一开始,LAS 在一些小数据集上面训练出来的结果其实并不是很好,它和常规的深度学习结果还有一定的差距。但随着训练的数据集越来越大,LAS也开始起飞了,最终在12500hour+的数据集上反超了常规深度学习的算法,并且LAS在模型大小上(0.4 GB)还远胜于传统深度学习算法(7.2 GB)

#学习#人工智能#语音识别
真的不能再详细了,2W字保姆级带你一步步用Pytorch搭建卷积神经网络实现MNIST手写数字识别

2w6k字,真的不能再详细了!!!几乎每一行代码都有注释!!!本教程包括MNIST数据集的下载与保存与加载、卷积神经网路的构建、模型的训练、模型的测试、模型的保存、模型的加载与继续训练和测试、模型训练过程、测试过程的可视化、模型的使用。

#pytorch#人工智能#python +1
    共 11 条
  • 1
  • 2
  • 请选择