
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
快手搜索团队提出全新的检索数据引擎 CroPS。该方法通过引入用户换 Query 数据、推荐流数据以及大模型生成的世界知识,多视角丰富了正样本信号,并结合层次化标签分配(HLA)策略和 H-InfoNCE 损失函数,实现了对相关性的精细化建模,该论文已被人工智能顶级会议 AAAI 2026 Oral 接收!🧩 方法与思路✅多视角正样本增强引擎 CroPS✅层次化标签分配 (HLA)✅H-Info

本文将基于快手电商B端用户体验现状、探索和未来展望,探讨 AI 在提升用户体验方面的巨大潜力。

此外,为进一步推动VQE领域的研究,我们构建了一个全新的压缩视频编码先验数据集VCP,包含300个原始视频和多种HEVC编码配置下的编码先验(如运动矢量、预测帧、残差帧等),有效弥补了现有数据集中编码先验缺失的空白。在三个评估数据集和四个偏好维度上,MPS的表现优于现有的评分方法,使其成为评估和改进文本生成图像的有前景的指标。基于这一视角,我们提出了测试时能量适应(TEA),它将训练好的分类器转变

尽管流匹配模型已成为图像与视频生成的基石,但在处理复杂场景与文本渲染时仍面临挑战。为此,港中文MMLab、清华大学与快手可灵团队联合提出了Flow-GRPO,开创性地将在线强化学习引入流匹配模型训练,破解复杂场景生成难题。核心实验效果:✅ 复杂组合生成能力大幅提升✅ 文字渲染精准无误✅ 更懂人类偏好✅ 有效抑制奖励黑客行为

快手可灵团队与南开大学成功定位了现有多模态大模型在情感线索捕捉中的关键短板。提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均实现了显著性能提升!

从“对口型”迈向“会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。

日前,可灵团队公开了多项研究成果,这一系列研究成果充分展现了可灵在视频生成领域的系统性探索。通过更好地理解和整合多模态用户意图,降低生成“抽卡率”,可灵正在逐步实现让 AI 视频创作更加精确、可控且易用的目的。

在 AI Coding 的真实落地场景中,以 OpenClaw 为代表的 AI Agent 框架持续高频迭代,不断引入新工具与新协议,这对模型的脚手架泛化能力提出了巨大挑战。工具调用失败、多步任务中断、指令理解偏差,是模型在实际使用中频繁暴露的问题,而在高频使用场景下,这些问题会被成倍放大,直接影响用户体验。模型能力的真正边界,不只是代码生成质量是否过关,更在于面对工具不断扩展、任务链路持续拉长的

快手可灵团队与南开大学成功定位了现有多模态大模型在情感线索捕捉中的关键短板。提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均实现了显著性能提升!

通过评估众多最先进的描述模型,我们证明了 VidCapBench 与现有视频描述评估方法相比具有卓越的稳定性和全面性,确保评测的是视频描述的质量而不是裁判模型的评价能力。值得注意的是,与现有方法相比,我们的方法利用模型辨别有害信息的能力,同时保持了较高的有用性。然而,现有的视频理解基准测试往往将这些特性分开处理,或仅仅关注特定方面,忽视了视频内容的整体性。这项评估揭示了视频时序理解中的关键挑战,例








