logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(Arxiv-2026)Kiwi-Edit:通过指令与参考引导实现通用视频编辑

本文提出Kiwi-Edit框架,通过指令与参考引导实现通用视频编辑。针对现有方法在视觉控制精度上的不足,作者构建了RefVIE数据集(47.7万高质量四元组)和RefVIE-Bench评估基准。Kiwi-Edit采用多模态大语言模型与扩散Transformer结合的双连接器架构,通过三阶段训练策略实现指令与参考的协同引导。实验表明,该方法在可控视频编辑任务上达到新的最优水平。

文章图片
#音视频#人工智能
(Arxiv-2026)Helios:真正的实时长视频生成模型

Helios:首个14B实时长视频生成模型 北京大学团队提出的Helios实现了三大突破: 在单张H100 GPU上达到19.5 FPS,支持分钟级视频生成 无需抗漂移启发式方法,解决了位置/颜色/复原漂移问题 采用自回归扩散架构,统一支持T2V/I2V/V2V任务 关键技术包括: 统一历史注入机制实现无限视频续写 对抗式分层蒸馏将采样步数从50步降至3步 记忆分块和金字塔预测器减少计算量 实验显

文章图片
#音视频
(ICLR-2026)LONGLIVE:实时交互式长视频生成

LONGLIVE是一种实时交互式长视频生成框架,通过逐帧自回归设计解决长视频生成在质量和效率上的挑战。该框架采用KV-recache机制实现平滑的提示切换,提出streaming long tuning策略对齐训练与推理,并引入short window attention加速生成。实验表明,LONGLIVE在单张H100 GPU上能以20.7 FPS生成长达240秒的视频,支持INT8量化且质量损

文章图片
#音视频
(Arxiv-2026)Causal Forcing:为高质量实时交互式视频生成正确实现的自回归扩散蒸馏

本文提出Causal Forcing方法,用于解决自回归视频扩散模型蒸馏中的架构差距问题。现有方法从双向教师模型蒸馏自回归学生模型时,会违反帧级单射性条件,导致性能下降。作者通过理论分析表明,这种差距应在ODE初始化阶段解决。Causal Forcing采用自回归教师进行ODE蒸馏,确保满足帧级单射性,使学生模型能准确学习流映射。实验表明,该方法在所有指标上均优于基线模型,在动态程度、视觉质量和指

(CVPR-2025)从缓慢的双向视频扩散模型到快速的自回归视频扩散模型

本文提出了一种将双向视频扩散模型转化为快速自回归模型的方法CausVid,显著提升了视频生成效率。传统双向扩散模型生成128帧视频需219秒且需等待全部生成完成,而该方法通过将预训练双向扩散Transformer改造为因果自回归架构,结合创新的非对称蒸馏策略,实现了仅1.3秒初始延迟后以9.4 FPS流式生成。该方法还引入了基于教师ODE轨迹的学生初始化方案,有效缓解了自回归模型的误差累积问题,使

文章图片
#视频生成
(NIPS-2025)自强制:弥合自回归视频扩散中的训练–测试差距

本文提出Self Forcing方法,用于解决自回归视频扩散模型中训练与测试阶段的分布不匹配问题。传统方法(如Teacher Forcing和Diffusion Forcing)在训练时依赖真实或带噪上下文帧进行去噪,导致推理阶段因依赖自身生成结果而产生误差累积。Self Forcing通过在训练过程中自回归展开,使每一帧生成都基于模型自身先前输出,从而直接优化完整生成序列的质量。该方法结合少步扩

文章图片
#回归#音视频#数据挖掘
【机器学习实战】k-近邻算法Python实现

文章目录K-近邻算法概述工作原理实施KNN算法示例:手写识别系统数据集下载K-近邻算法概述简单地说, kkk-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点: 计算复杂度高、空间复杂度高。适用数据范围: 数值型和标称型。工作原理存在一个样本数据集合, 也称作训练样本集, 并且样本集中每个数据都存在标签, 知道样本集中每一数据与所属分

文章图片
#数据挖掘#机器学习#数据分析 +1
(ICML-2022)BLIP:构建统一视觉-语言理解与生成模型的语言图像预训练方法

BLIP:统一的视觉-语言预训练框架 BLIP提出了一种新颖的视觉-语言预训练框架,通过多模态混合编码器-解码器(MED)结构和数据自举方法CapFilt,实现了视觉-语言理解与生成任务的统一优化。MED架构能够同时支持三种功能模式:单模态编码、图像引导文本编码和图像引导文本解码。框架采用图文对比、图文匹配和语言建模三种损失联合优化。CapFilt方法通过生成合成图像描述和过滤噪声数据,有效提升了

文章图片
#计算机视觉#transformer
(ICML-2021)从自然语言监督中学习可迁移的视觉模型

SOTA计算机视觉系统经过训练可以预测一组固定的预定目标类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的替代方案,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像对应的简单预训练任务是一种高效且可扩展的方法,可以在从互联网收集的 4 亿对(图像、文本)数据集上从头开始学习 SOTA 图像表示。预训练

文章图片
【李航】统计学习方法--7. 支持向量机(详细推导)

7.1 线性可分支持向量机与硬间隔最大化7.1.1 线性可分支持向量机当训练数据集线性可分时,存在无穷个分离超平面可将两类数据正确分开。感知机利用误分类最小的策略,求得分离超平面,不过这时的解有无穷多个。线性可分支持向量机利用间隔最大化求最优分离超平面,这时,解是唯一的。线性可分支持向量机 给定线性可分训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为w∗⋅x+b∗=

文章图片
#机器学习#算法#支持向量机
    共 145 条
  • 1
  • 2
  • 3
  • 15
  • 请选择