
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
语音也是一个日渐热门的行业啊。给定一段文本,我们想让它被阅读出来.就需要使用到语音合成技术,也就是Text-to-Speech,简称TTS。这里记录一下我看到的一些有意思的模型。
2022暑假补补强化学习记录,它可以帮助我们做一些决策的事情,并实现有一些有意思的结果,比如训练一个AI来帮我们玩赛车游戏等。
上次已经学习了open AI的 DDPM(. 这次来看openAI的另一个作品。), 以及 斯坦福的 DDIM。这次来看一篇扩散模型超越GAN的一篇经典之作。
前言呜呜呜毕设好难,学点好玩的东西娱乐一下吧…就选了python多线程。例子from threading import Threadclass Model:def __init__(self):self.lt = [2021]def add(self, num):self.lt.append(num)# 创建 Thread 的子类class MyThread(Thread):def __init_
前言这里有这学期学过的三种模型,需要认真掌握能量的形式,何时最大。其他大物文章见:大物文章汇总简谐波但物体运动到位移最大的地方,动能为0,势能最大;而运动到平衡位置时,动能最大,势能为零;不断进行动能和势能的转换。机械波在位移最大的地方,动能和势能都为0,而在平衡位置,势能和动能都为最大值。能量一直往前传递,而没有累积。驻波当波腹运动到位移最大的地方时,此时系统的能量表现为波节位置的势能。当波腹运
之前的diffusion模型,也可以实现SOTA,但需要耗费巨大算力。于是不要让扩散模型在原始像素上推导了,而让它在 latent space(可以理解为一个feature map的空间中)进行学习。具体的,可以是图片经过encoder(可以是CNN) 后,得到一个feature map, 然后在这个feature map上进行标准的扩散过程,最后来个decoder映射回图片像素空间。
本文介绍了一个基于Flask实现的FTP小网站优化版本,主要解决了传统通讯工具文件传输的痛点。该工具具有两大优势:1) 无需登录,局域网内多设备可直接访问;2) 文件在局域网内直传,速度远超第三方软件中转。项目采用Flask框架开发,包含文件上传、下载等核心功能,支持拖拽上传和可视化界面。作者使用Tailwind CSS和Font Awesome对前端进行了现代化改造,提升了用户体验。项目通过ap

前言本人觉得自己工程实践水平有待提高。今日刚好复完 李沐 大神的视频,又刚好看了一下resnet一些复现的代码,就想写写随笔。ResNet论文逐段精读【论文精读】非常喜欢沐神的论文精读系列,有网友调侃 沐神 在b站带研究生了哈哈另外也非常喜欢何凯明的作品,架构简单有效。resnet是2016CVPR best paper。另外值得一提的是,有很多人觉得他的新作 Masked Autoencoder
有时候想看imagenet下某个类别的效果,但它又没划分… 之前看了这篇文章,但不是很清楚那代码。本文基于它的代码去做更改把这个下下来 https://raw.githubusercontent.com/soumith/imagenetloader.torch/master/valprep.sh其实这就是个sh了,只是不方便控制路径,这里用python写写本文有另一个作用就是存储一下代码,不然某天
大模型大行其道,但是当实际落地时,需要考虑硬件和运行功耗,因此企业更希望部署的是“小”模型。因此学习一些蒸馏技术就成为一些算法工程师必备的技能点。







