logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

可灵视频生成可控性为什么这么好?快手又公开了四篇研究

日前,可灵团队公开了多项研究成果,这一系列研究成果充分展现了可灵在视频生成领域的系统性探索。通过更好地理解和整合多模态用户意图,降低生成“抽卡率”,可灵正在逐步实现让 AI 视频创作更加精确、可控且易用的目的。

文章图片
#视频生成
ICML 2025 高分论文!快手&南开提出:模块化双工注意力机制,显著提升多模态大模型情感理解能力!

快手可灵团队与南开大学成功定位了现有多模态大模型在情感线索捕捉中的关键短板。提出了新的模块化双工注意力范式,并基于此构建了一个涵盖感知、认知与情感能力的多模态模型‘摩达(MODA)’。该模型在通用对话、知识问答、表格处理、视觉感知、认知分析和情感理解等六大类任务的21个基准测试中均实现了显著性能提升!

文章图片
#人工智能#计算机视觉
新加坡见!快手11篇论文入选人工智能领域顶会ICLR 2025

快手11篇论文入选人工智能领域顶会ICLR 2025

文章图片
#人工智能
入围AA总榜Top10,Non-Reasoning Model榜单第一!KAT-Coder-Pro V1 新版本踏浪归来!

快手 Agentic Coding 模型 KAT-Coder-Pro V1 重磅升级!在 Artificial Analysis Intelligence Index 官方评测中,该模型以64分超越 Claude 4.5 Sonnet,综合模型能力入围总榜Top 10;在 Non-Reasoning Model 榜单中以绝对优势斩获第一名。模型目前仍在限时免费中,欢迎试用。

文章图片
#人工智能#算法#机器学习 +3
揭秘!如何将动效描述自动转化为动效代码

在上一篇文章中,我们详细介绍了Vision动效平台的渲染引擎——Crab,并分享在复杂动效渲染场景下积累的实践经验和精彩案例。今天,我们将揭秘如何将「动效描述翻译为动效代码」——从Lottie导出CSS/Animated代码。

文章图片
#react native#react.js#javascript
快手可图与华中科技大学提出VGT, 让任意 VLM 摇身一变成为 SOTA 图像生成模型!

谁说看懂世界的AI不会创造世界?快手可图团队联合华中科技大学搞出的VGT技术,直接把这个潜力激活了——不用从头训练大模型,只要简单“专项微调”,Qwen2.5-VL、InternVL3这些“理解派”AI,立马就能变身顶尖生图高手!

文章图片
#图像处理#人工智能
“对齐”驱动增长:快手Align³GR广告生成式推荐大模型

短视频广告推荐中常存在用户真实需求与广告内容、历史点击行为脱节的 “错位” 问题。快手推出的 Align³GR 广告生成式推荐大模型,以 “对齐” 技术为核心破解该难题,通过从基础对齐工具 DAS 到进阶大模型 Align³GR 的两步关键进化,让推荐系统同时读懂广告内容、把握用户真实偏好并契合平台与商家诉求,最终实现用户看得顺眼、商家获得效果、平台提升收益的三方共赢。

文章图片
#人工智能#算法#机器学习 +1
NeurIPS 2025 | 快手联合南开提出情感树推理新方法,显著提升多模态大模型情感理解能力

你是否希望AI不仅能“看见”画面,更能“读懂”人心?传统方法在分析视频情感时,往往只能进行基础分类,难以理解复杂情感的动态变化。针对这一挑战,快手可灵团队与南开大学提出了创新解决方案——VidEmo,让AI首次实现“情智兼备”的情感推理。🧠 核心创新:像人一样“分步推理”研究团队提出了一个基于情感线索引导的树状推理框架。VidEmo不再试图一步到位,而是模拟人类的认知过程,分三个阶段层层递进:?

文章图片
#人工智能#大数据
NeurIPS 2025 | 让扩散模型“评价”自己:中科院与快手可灵团队提出隐式奖励建模新范式

用 AI 画图总遇到 “差口气” 的情况 —— 明明按指令描述了,生成的图却不符合审美,要么颜色奇怪,要么细节拉胯… 原来问题出在 “偏好优化” 上!中科院自动化所和快手可灵团队的新研究,用 LRM+LPO 直接解决了传统方法的坑,目前该论文已被NeurIPS 2025 录用。

文章图片
#数据分析#语言模型
能看清,更要看懂:MME-VideoOCR全面评估MLLM视频OCR能力

看视频想提取文字时,AI 总掉链子 —— 运动模糊认不清字幕,弹幕叠着文字就懵,跨帧找个时间点的文字更是难上加难…快手可灵团队联合北京大学、清华大学、中科院自动化所等单位提出了 MME-VideoOCR,该 Benchmark 致力于系统评估并推动 MLLM 在视频 OCR 中的感知、理解和推理能力,目前该论文已被NeurIPS 2025会议录用。💡这基准到底有多能打?​▪️ 10 大类 25

文章图片
#人工智能#语言模型
    共 52 条
  • 1
  • 2
  • 3
  • 6
  • 请选择