logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Self Forcing:解决自回归视频扩散曝光偏差,单 GPU 实现 17FPS 实时生成

《SelfForcing:突破自回归视频扩散的训练-推理鸿沟》摘要 本文解析了Adobe Research与德克萨斯大学奥斯汀分校提出的SelfForcing技术,该技术解决了自回归视频生成中长期存在的曝光偏差问题。传统方法(TeacherForcing和DiffusionForcing)由于训练与推理时的数据分布不匹配,导致生成质量随时间下降。SelfForcing通过让模型在训练时模拟推理过程

文章图片
#音视频#人工智能#深度学习 +3
从 219 秒到 1.3 秒!CausVid:首个媲美双向扩散的流式视频生成模型深度解析

MIT与Adobe联合研发的CausVid模型通过四大创新技术突破视频生成瓶颈:采用块级因果注意力实现局部双向与全局因果的平衡;首创"双向教师→因果学生"的非对称蒸馏框架,将50步扩散蒸馏为4步自回归;引入ODE轨迹初始化解决训练不稳定问题;结合KV缓存实现恒定速度流式生成。在单卡H100上达到1.3秒初始延迟和9.4FPS吞吐量,VBench-Long基准84.27分超越所有

文章图片
#音视频#人工智能#AIGC +1
从 DMD 到 DMD2:搞懂扩散模型的 “提速革命“

摘要: DMD是一种革命性的一步生成技术,通过双分数模型学习真实图像分布规律,而非传统蒸馏的"死记硬背"。其核心突破在于:1)取消时间步的生成器直接输出图像;2)利用真假分数梯度引导生成方向;3)LPIPS正则防止模式崩溃。相比传统方法,DMD在ImageNet上FID仅2.62(接近原模型),实现了速度与质量的平衡。该技术通过分布匹配替代单样本拟合,使模型具备"举一

文章图片
#python#人工智能#深度学习
你买的token到底是什么?

本文深入解析大模型API中的token计费机制与技术实现流程。token是大模型处理文本的最小语义计算单元,通过Tokenizer将文本切分成token并分配整数ID作为计费依据。文章详细拆解了从原始文本到模型输入的完整链路:文本经Tokenizer切分后,通过EmbeddingLookup将tokenID转换为语义向量,再经过Transformer处理(包含Q/K线性变换、RoPE位置编码和注意

文章图片
#人工智能#机器学习#深度学习 +2
自监督对比学习 与 DINO系列 论文分享(附推理脚本)

DINOv3 是在vit上的自监督视觉基础模型,在DINOv2之上扩大数据集与模型规模、创新 Gram 锚定技术解决密集特征退化问题,并结合高分辨率适配与多尺寸蒸馏,构建了兼顾全局 / 密集任务、跨领域泛化且无需微调的模型家族,刷新了多类视觉任务的 SOTA 性能。

文章图片
#学习#python#计算机视觉 +3
Agent 生态全解:厘清 Agent、MCP、Skill、RAG、LangChain 与 OpenClaw

Skill 是为 Agent 场景封装的、具备单一完整功能的、可被 LLM 标准化调用的原子执行模块。它的核心价值,是弥补 LLM 的原生能力缺陷 ——LLM 无法直接发送消息、控制浏览器、操作设备、调用业务接口,这些能力都需要通过封装好的 Skill 来实现。单一职责原则:一个 Skill 仅完成一类明确的操作,比如 “发送飞书消息”“浏览器页面截图”“获取设备地理位置”,避免功能耦合导致的调用

文章图片
#microsoft#人工智能#github +1
Agent 生态全解:厘清 Agent、MCP、Skill、RAG、LangChain 与 OpenClaw

Skill 是为 Agent 场景封装的、具备单一完整功能的、可被 LLM 标准化调用的原子执行模块。它的核心价值,是弥补 LLM 的原生能力缺陷 ——LLM 无法直接发送消息、控制浏览器、操作设备、调用业务接口,这些能力都需要通过封装好的 Skill 来实现。单一职责原则:一个 Skill 仅完成一类明确的操作,比如 “发送飞书消息”“浏览器页面截图”“获取设备地理位置”,避免功能耦合导致的调用

文章图片
#microsoft#人工智能#github +1
DeepSeek-R1 思维链 (CoT) 解析:模型真的会思考吗?

摘要: DeepSeek-R1通过纯强化学习(RL)驱动,突破传统思维链(CoT)依赖人工标注的瓶颈,实现内生性推理能力进化。其核心创新在于: 训练范式:跳过监督微调(SFT),仅基于规则化奖励(答案正确性+格式规范)驱动模型自主探索,形成包含反思、回溯、多路径择优的闭环推理链。 算法优化:采用GRPO(Group Relative Policy Optimization)替代PPO,支持最长65

文章图片
#人工智能#深度学习#自然语言处理 +1
到底了