logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

快手提出端到端生成式搜索框架OneSearch,让搜索“一步到位”!

快手提出业界首个工业级部署的电商搜索端到端生成式框架——OneSearch,OneSearch框架集三大创新于一身:关键词增强层次量化编码(KHQE)模块、多视角用户行为序列注入策略以及偏好感知奖励系统(PARS)。目前,该系统已在快手多个电商搜索场景中成功部署,每日服务数百万用户,产生数千万页面浏览量。

文章图片
快手提出端到端生成式搜索框架OneSearch,让搜索“一步到位”!

快手提出业界首个工业级部署的电商搜索端到端生成式框架——OneSearch,OneSearch框架集三大创新于一身:关键词增强层次量化编码(KHQE)模块、多视角用户行为序列注入策略以及偏好感知奖励系统(PARS)。目前,该系统已在快手多个电商搜索场景中成功部署,每日服务数百万用户,产生数千万页面浏览量。

文章图片
可灵AI数字人来了!快手重磅发布Kling-Avatar,面向多模态指令理解与控制的数字人长视频生成新范式

从“对口型”迈向“会表演”,快手可灵团队探索出一条全新的数字人生成范式,实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台,欢迎移步可灵平台体验新版数字人应用,看看你的声音和想法如何被一镜到底地演绎出来。近年来,快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。

文章图片
#人工智能#音视频
多模态大模型Keye-VL-1.5发布!视频理解能力更强!

快手正式发布了多模态大语言模型Keye-VL-1.5-8B。与之前的版本相比,Keye-VL-1.5的综合性能实现显著提升,尤其在基础视觉理解能力方面,包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。

文章图片
#音视频
多模态大模型Keye-VL-1.5发布!视频理解能力更强!

快手正式发布了多模态大语言模型Keye-VL-1.5-8B。与之前的版本相比,Keye-VL-1.5的综合性能实现显著提升,尤其在基础视觉理解能力方面,包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。

文章图片
#音视频
快手发布SeamlessFlow框架:完全解耦Trainer与Agent,时空复用实现无空泡的工业级RL训练!

与Areal等其他框架通过引入落后多步off-polcy数据的做法不同,SeamlessFlow的时空复用pipeline,将off-polcy数据的落后程度控制在了1步以内,在实现无空泡的同时,尽可能减小了其对RL算法侧的负面影响。在这种情况下,如何设计RL系统,以保证这些在线产生的数据能无缝高效地进入RL的训练管线中、以及在不影响线上产品的情况下,最大化利用异构的计算资源,成为了一个极具挑战的

文章图片
#人工智能
不止于“think with image”!快手Kwai Keye发布Thyme,赋予模型超越图像思考的超能力!

然而,对于更困难的任务,如监控与自动驾驶,在这些任务上Qwen-2.5-VL-7B的感知能力较弱时,Thyme的感知和推理任务的提升超过了25%,尤其是在推理任务中,提升更为显著。首先,由于两轮对话数据的特殊性,出现了一些意想不到的模式:模型在第一轮倾向于生成错误或不充分的分析和代码,然后在第二轮进行修正,使得第一轮基本上无效。具体来说,为文本使用较高的温度以鼓励探索和创造性,为代码使用极低的温度

文章图片
#人工智能
万字长文分享快手 Kolors 可图大模型应用实践

在 AICon 北京站活动中,快手「可图」大模型负责人李岩分享了主题为《快手「可图」文生图大模型应用实践》的演讲,Kolors 开源短短几天,在 Github 已收获 2.5k stars,在 Hugging Face 也登上了模型 Trending 榜榜首。

文章图片
#开源#语言模型#人工智能
ICML 2025 高分论文!快手&南开提出:模块化双工注意力机制,显著提升多模态大模型情感理解能力!

快手可灵团队与南开大学成功定位了现有多模态大模型在情感线索捕捉中的关键短板。提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均实现了显著性能提升!

文章图片
#人工智能#计算机视觉
快手开源多模态大模型Kwai Keye-VL,引领视频理解新纪元

近日,快手发布并开源其最新自研的多模态大语言模型 Kwai Keye-VL。Kwai Key-VL采用 VisionEncoder-Projector-LLM 架构,集成了文本、图像、视频信息的混合输入处理能力,旨在为用户带来更智能、更全面的多模态交互体验。如果有人突然问你:「这张图片中有几颗草莓」?你会如何快速回复?面对五彩缤纷的果盘,我们往往需要反复端详,放大图片再逐一清点,耗费不少时间才能得

文章图片
    共 47 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择