logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

腾讯浑元最新技术:具有表征对齐的多模态扩散,用于高保真拟音音频生成

2025年8月28日,腾讯混元团队宣布开源端到端视频音效生成模型HunyuanVideo-Foley56。该模型能够依据输入的视频内容及文字描述,自动生成与画面高度同步的高品质音效,有效解决了AI生成视频缺乏同步音频的沉浸感问题。

文章图片
#音视频#人工智能#算法 +1
近期AI大事件跟踪

欢迎来到【FunnyAI】本栏目探索人工智能世界的最新指南,定期为大家呈现AI领域的热点内容,AI产品应用,最新AI工具,AI算法解析。

文章图片
#人工智能#目标检测#计算机视觉 +1
分析400+人工智能公司,得出这样的结论

带着寻找以下问题的答案:哪些行业正在见证最多的人工智能创新?哪些类型的人工智能应用正在吸引投资?成功的人工智能创始人有着怎样的背景?

文章图片
#人工智能#计算机视觉#程序人生
商汤最新研究:GPT-5比其他所有模型都要强,但是相比人类还差得远

商汤科技与南洋理工联合研究发现,GPT-5在空间智能方面取得显著进展,在度量测量和空间关系任务上达到人类水平,但在心理重建、视角转换等核心能力上仍存在明显差距。研究构建了包含6大空间能力的评估体系,测试了8个基准数据集,消耗超十亿tokens。结果显示:1)GPT-5树立了新标杆;2)多模态模型在空间任务表现普遍弱于非空间任务;3)专有模型在最困难任务上未展现决定性优势。定性分析揭示,GPT-5能

文章图片
#人工智能#科技#算法
最新AI技术动态概览:从人形机器人到3D模型生成

本文将带您了解近期发布的五项突破性进展,包括英伟达的人形机器人基础模型GR00T N1、LG开源的高级推理模型EXAONE Deep、Stability AI的图片转3D视频工具Stable Virtual Camera、Mistral的新一代文本处理模型Mistral Small 3.1-24B,以及腾讯最新升级的3D模型创作系统混元3D 2.0。模型生成模型基于流扩散的扩散模型构建,旨在生成与

文章图片
#人工智能#机器人#3d +1
上海AI实验室开源Intern VL3系列模型:整体文本性能优于 Qwen2.5 系列

InternVL3-78B预计是InternVL系列的高阶版本,通过更大参数量、更优训练策略和扩展的模态支持,进一步提升多模态理解的通用性与专业性。其开源特性与高效部署能力,使其在学术研究与工业落地中具有重要价值。具体性能需参考官方发布的评测数据,但基于系列前代表现,可预期其在多模态任务中接近或超越主流商业模型。

文章图片
#人工智能#语言模型#计算机视觉
nvidia最新论文:小型语言模型是代理人工智能的未来

本文提出多数 agent 场景下可在消费设备上低延迟运行的 SLM 已足够且更经济,应该采用“SLM 优先、少量 LLM 补充”的异构架构(并给出 LLM→SLM 迁移算法),同时讨论了产业惯性等阻碍。

文章图片
#人工智能#语言模型#自然语言处理
nvidia最新论文:小型语言模型是代理人工智能的未来

本文提出多数 agent 场景下可在消费设备上低延迟运行的 SLM 已足够且更经济,应该采用“SLM 优先、少量 LLM 补充”的异构架构(并给出 LLM→SLM 迁移算法),同时讨论了产业惯性等阻碍。

文章图片
#人工智能#语言模型#自然语言处理
nvidia最新论文:小型语言模型是代理人工智能的未来

本文提出多数 agent 场景下可在消费设备上低延迟运行的 SLM 已足够且更经济,应该采用“SLM 优先、少量 LLM 补充”的异构架构(并给出 LLM→SLM 迁移算法),同时讨论了产业惯性等阻碍。

文章图片
#人工智能#语言模型#自然语言处理
最新AI模型整理

最近不少模型更新,针对一些视频生成模型进行整理

文章图片
#人工智能#AIGC#语言模型
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择