logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

开源模型社区

VITA-1.5: 迈向GPT-4o级实时视频-语音交互

近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。

文章图片
ModelScope魔搭25年1月版本发布月报

随着2025年帷幕的缓缓拉开,ModelScope团队怀着新年新气象的美好期许,为广大开发者带来了1月份的重磅更新。

文章图片
魔搭社区每周速递(1.5-1.18)

魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容

文章图片
OpenCSG开源最大中文合成数据集Chinese Cosmopedia

近年来,生成式语言模型(GLM)的飞速发展正在重塑人工智能领域,尤其是在自然语言处理、内容创作和智能客服等领域展现出巨大潜力。

文章图片
通义千问团队开源全新的过程奖励模型PRM!

近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削

文章图片
MiniCPM-o 2.6:流式全模态,端到端,多模态端侧大模型来了!

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-

文章图片
InternLM3开源发布!4T数据达到18T效果,成本省75%,首度融合深度思考与对话能力!

1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8

文章图片
Valley2,基于电商场景的多模态大模型

Valley2是一种新颖的多模态大型语言模型,旨在通过可扩展的视觉-语言设计增强各个领域的性能,并拓展电子商务和短视频场景的实际应用边界。

文章图片
微软phi-4来啦!小模型之光,14B科学、代码等能力超70B模型效果!

微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源,Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的

文章图片
Paper Reading | MEMO:记忆引导扩散模型实现生动的Talking Head生成

MEMO能够仅通过一张图片和一段音频,生成逼真且富有表现力的人像视频,不仅在音频与口型同步方面表现出色,还能生成自然流畅的面部表情和动作,使得生成的视频栩栩如生,仿佛真人在表演。

文章图片
    共 482 条
  • 1
  • 2
  • 3
  • 49
  • 请选择