
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《SelfForcing:突破自回归视频扩散的训练-推理鸿沟》摘要 本文解析了Adobe Research与德克萨斯大学奥斯汀分校提出的SelfForcing技术,该技术解决了自回归视频生成中长期存在的曝光偏差问题。传统方法(TeacherForcing和DiffusionForcing)由于训练与推理时的数据分布不匹配,导致生成质量随时间下降。SelfForcing通过让模型在训练时模拟推理过程

MIT与Adobe联合研发的CausVid模型通过四大创新技术突破视频生成瓶颈:采用块级因果注意力实现局部双向与全局因果的平衡;首创"双向教师→因果学生"的非对称蒸馏框架,将50步扩散蒸馏为4步自回归;引入ODE轨迹初始化解决训练不稳定问题;结合KV缓存实现恒定速度流式生成。在单卡H100上达到1.3秒初始延迟和9.4FPS吞吐量,VBench-Long基准84.27分超越所有

摘要: DMD是一种革命性的一步生成技术,通过双分数模型学习真实图像分布规律,而非传统蒸馏的"死记硬背"。其核心突破在于:1)取消时间步的生成器直接输出图像;2)利用真假分数梯度引导生成方向;3)LPIPS正则防止模式崩溃。相比传统方法,DMD在ImageNet上FID仅2.62(接近原模型),实现了速度与质量的平衡。该技术通过分布匹配替代单样本拟合,使模型具备"举一

本文深入解析大模型API中的token计费机制与技术实现流程。token是大模型处理文本的最小语义计算单元,通过Tokenizer将文本切分成token并分配整数ID作为计费依据。文章详细拆解了从原始文本到模型输入的完整链路:文本经Tokenizer切分后,通过EmbeddingLookup将tokenID转换为语义向量,再经过Transformer处理(包含Q/K线性变换、RoPE位置编码和注意

DINOv3 是在vit上的自监督视觉基础模型,在DINOv2之上扩大数据集与模型规模、创新 Gram 锚定技术解决密集特征退化问题,并结合高分辨率适配与多尺寸蒸馏,构建了兼顾全局 / 密集任务、跨领域泛化且无需微调的模型家族,刷新了多类视觉任务的 SOTA 性能。

Skill 是为 Agent 场景封装的、具备单一完整功能的、可被 LLM 标准化调用的原子执行模块。它的核心价值,是弥补 LLM 的原生能力缺陷 ——LLM 无法直接发送消息、控制浏览器、操作设备、调用业务接口,这些能力都需要通过封装好的 Skill 来实现。单一职责原则:一个 Skill 仅完成一类明确的操作,比如 “发送飞书消息”“浏览器页面截图”“获取设备地理位置”,避免功能耦合导致的调用

Skill 是为 Agent 场景封装的、具备单一完整功能的、可被 LLM 标准化调用的原子执行模块。它的核心价值,是弥补 LLM 的原生能力缺陷 ——LLM 无法直接发送消息、控制浏览器、操作设备、调用业务接口,这些能力都需要通过封装好的 Skill 来实现。单一职责原则:一个 Skill 仅完成一类明确的操作,比如 “发送飞书消息”“浏览器页面截图”“获取设备地理位置”,避免功能耦合导致的调用

摘要: DeepSeek-R1通过纯强化学习(RL)驱动,突破传统思维链(CoT)依赖人工标注的瓶颈,实现内生性推理能力进化。其核心创新在于: 训练范式:跳过监督微调(SFT),仅基于规则化奖励(答案正确性+格式规范)驱动模型自主探索,形成包含反思、回溯、多路径择优的闭环推理链。 算法优化:采用GRPO(Group Relative Policy Optimization)替代PPO,支持最长65








