
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
快手有12篇论文入选AAAI 2026,研究成果涵盖搜索与推荐系统、多镜头视频生成、多模态内容理解与评估、生成式模型基础技术、视频大语言模型、实验设计以及LLM隐空间推理等方向。

近日,快手发布并开源其最新自研的多模态大语言模型 Kwai Keye-VL。Kwai Key-VL采用 VisionEncoder-Projector-LLM 架构,集成了文本、图像、视频信息的混合输入处理能力,旨在为用户带来更智能、更全面的多模态交互体验。如果有人突然问你:「这张图片中有几颗草莓」?你会如何快速回复?面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得

尽管流匹配模型已成为图像与视频生成的基石,但在处理复杂场景与文本渲染时仍面临挑战。为此,港中文MMLab、清华大学与快手可灵团队联合提出了Flow-GRPO,开创性地将在线强化学习引入流匹配模型训练,破解复杂场景生成难题。核心实验效果:✅ 复杂组合生成能力大幅提升✅ 文字渲染精准无误✅ 更懂人类偏好✅ 有效抑制奖励黑客行为

从“对口型”迈向“会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。

通过评估众多最先进的描述模型,我们证明了 VidCapBench 与现有视频描述评估方法相比具有卓越的稳定性和全面性,确保评测的是视频描述的质量而不是裁判模型的评价能力。值得注意的是,与现有方法相比,我们的方法利用模型辨别有害信息的能力,同时保持了较高的有用性。然而,现有的视频理解基准测试往往将这些特性分开处理,或仅仅关注特定方面,忽视了视频内容的整体性。这项评估揭示了视频时序理解中的关键挑战,例

13篇入选,1篇Spolight!快手在 NeurIPS 2025 战绩亮眼!这些论文涵盖视频生成与优化、多模态大模型评估与鲁棒性研究、视频压缩与表征、情感计算与跨模态同步、以及实时视频流分析与应用等方向。论文链接和项目地址都整理好放至文中啦,快来点击阅读吧~

快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。文章亮点:从低时延模式到双向模式的扩展创新的双向智能视频编码框架

快手最新开源的多模态大模型Keye-VL-671B-A37B,这次真的重新定义了“视觉理解”!🎯三大核心突破:✅ 超强视觉感知不仅能看清细节,还能推理逻辑,比人类判断更可靠✅ 精准视频理解能捕捉视频中每个镜头变化,识别场景细节✅ 复杂推理能力在数学、图表、逻辑推理任务中表现惊艳,思考更深入

换配音总对口型失败、数字人直播几小时就脸崩、遮挡场景下编辑口型直接崩效果?快手 OmniSync 直接用三大创新把这些痛点全攻克,重新定义了口型编辑的行业标准!✅ 无 mask 训练范式,彻底解耦口型与身份✅ 流匹配推理,实现无限时长不漂移✅ 动态时空 CFG,精准又不毁纹理

近日,快手正式发布全新推出的端到端多目标融合排序框架——EMER。该框架以其“会比较、自进化”的核心能力,重构了传统依赖人工经验公式的推荐模式,在快手主站App与极速版应用中实现了七日留存提升0.13%~0.2%、用户停留时长提升1.2%~1.4% 的显著效果,为行业推荐系统的智能化升级提供了可落地的解决方案。








