
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
MIT提出实时流式视频生成StreamDiffusionV2、LeCun&李飞飞&谢赛宁联合提出空间超感知Cambrian-S

近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码,共同点是他们都从架构上做了不小的升级,带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。
近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码,共同点是他们都从架构上做了不小的升级,带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。
Floyd算法核心思想:找到第三个点代替使两点间的距离更短核心代码就五行://flody核心for(int k=0;k<n;k++)for(int i=0;i<n;i++)for(int j=0;j<n;j++)if(M[i][j]>M[i][k]+M[k][j])...
目录在Sarsa的基础上改进的sarsa lambda算法Sarsa存在的问题改进方法2:Sarsa Lambda参考开始每天被老师抓着写周报,以后想摸鱼都摸不了,心态baozha……在Sarsa的基础上改进的sarsa lambda算法算法流程和数学推导就不写了,弄清楚lambda的含义:如果 lambda = 0, Sarsa-lambda 就是 Sarsa, ...
最近强化学习在Diffusion Models得到了越来越多广泛的应用,本专栏将系统性地介绍当前Diffusion Models中实用且前沿的技术进展。

Floyd算法核心思想:找到第三个点代替使两点间的距离更短核心代码就五行://flody核心for(int k=0;k<n;k++)for(int i=0;i<n;i++)for(int j=0;j<n;j++)if(M[i][j]>M[i][k]+M[k][j])...
在这个AI技术日新月异的时代,我们正见证着前所未有的创新与变革。尤其是在视觉内容生成领域(AIGC,Artificial Intelligence Generated Content),技术的每一次飞跃都意味着更加逼真、创意无限的数字艺术作品的诞生。自动生成内容的愿景日益成为现实。视觉领域,尤其是在图像和视频生成技术的进步,正引领着创意产业进入一个崭新的纪元。从消费者能够体验的个性化媒体到企业需求

Qwen2.5-Omini发布已经几个月了,但是网上实战微调的教程比较少,特别是如何准备数据如何调参等经验性技巧依旧比较难获得。这篇博客从实战出发,介绍如何微调Qwen2.5-Omni以及微调过程中的一些经验。

本文提出了一种基于人类偏好对齐的扩散框架,用于生成高度动态和逼真的音频驱动肖像动画。通过构建专门的人类偏好数据集,并引入定向偏好优化和时序运动调制两大创新,解决了唇部同步、表情自然度和运动连贯性等关键挑战。该方法在UNet和DiT架构中均表现出优势,实验表明其显著提升了唇音同步精度和面部表现力,同时在人类偏好指标上优于现有基线。研究还发布了首个针对肖像动画的偏好数据集,为相关领域研究提供了重要资源








