
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
自注意力缓存
图源:https://medium.com/@joaolages/kv-caching-explained-276520203249。解码器得到下一个token后,将该token拼接之前的token输入解码器,第。步的加权值向量,那么无须重复计算,只需要计算最后一行即可,也就是计算。步的加权值矩阵一致,如果保存了前。的内积,得到权重后对所有。

流匹配(Flow Matching)
Flow Matching(FM)由连续归一化流(CNFs)发展而来。首先简要介绍 CNF 的基本原理。与CNFs优化对数似然不同,Flow Matching直接优化向量场,并且不需要逆向求解ODE。ddtϕtx0utϕtx0dtdϕtx0utϕtx0))其中x0x_0x0表示初始分布的采样点,ϕtx0ϕtx0表示时刻ttt时初始点x0x_0x0达到的位置。

基于随机微分方程的生成建模:从SDE到DDPM的离散化框架
Score-Based Generative Modeling through Stochastic Differential Equations》提出了一种随机微分方程(SDE),它通过逐步注入噪声,将复杂的数据分布平滑地转化为一个已知的先验分布;同时,该工作还提出了一个对应的反向时间 SDE,通过逐步去除噪声,将先验分布转化回数据分布。关键在于,反向时间 SDE 仅依赖于扰动数据分布的时间依赖

到底了







