logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

小米开源端到端语音模型 MiMo-Audio-7B-Instruct 语音智能与音频理解达 SOTA

想象一下,当语音模型不仅能听懂你的话,还能根据你所给出的例子进行举一反三,搞定全新的语音任务。小米最新推出的 MiMo-Audio-7B-Instruct 做到了这一点。这全都归功于它首次将大语言模型领域的「涌现」能力和「少样本学习」能力移植到了语音模型上。MiMo-Audio-7B-Instruct 基于创新预训练架构和上亿小时训练数据,打破了语音领域依赖大规模标注数据的瓶颈。在开源模型的语音智

文章图片
#人工智能#深度学习#音视频
给你一个新视角看世界——Depth-Anything-3

在五大数据集构成的几何基准上,DA3 对深度、几何、位姿、渲染四大指标全面刷新记录,甚至小模型版本都能打赢别人家大模型 —— 这性能,妥妥「打小怪兽像打蚊子」级别的。它的潜力也很让人上头:无论是机器人需要看清路、AR/VR 需要理解空间、无人机想认清地形,还是想把普通相机变成「会理解世界的 3D 传感器」,DA3 都能轻松胜任。换句话来说,DA3 就像给普通相机开了「空间透视外挂」,把原本平面的画

文章图片
#人工智能#深度学习#机器学习
给你一个新视角看世界——Depth-Anything-3

在五大数据集构成的几何基准上,DA3 对深度、几何、位姿、渲染四大指标全面刷新记录,甚至小模型版本都能打赢别人家大模型 —— 这性能,妥妥「打小怪兽像打蚊子」级别的。它的潜力也很让人上头:无论是机器人需要看清路、AR/VR 需要理解空间、无人机想认清地形,还是想把普通相机变成「会理解世界的 3D 传感器」,DA3 都能轻松胜任。换句话来说,DA3 就像给普通相机开了「空间透视外挂」,把原本平面的画

文章图片
#人工智能#深度学习#机器学习
给你一个新视角看世界——Depth-Anything-3

在五大数据集构成的几何基准上,DA3 对深度、几何、位姿、渲染四大指标全面刷新记录,甚至小模型版本都能打赢别人家大模型 —— 这性能,妥妥「打小怪兽像打蚊子」级别的。它的潜力也很让人上头:无论是机器人需要看清路、AR/VR 需要理解空间、无人机想认清地形,还是想把普通相机变成「会理解世界的 3D 传感器」,DA3 都能轻松胜任。换句话来说,DA3 就像给普通相机开了「空间透视外挂」,把原本平面的画

文章图片
#人工智能#深度学习#机器学习
从几秒走向几分钟:长视频生成进入 LongCat 时刻

LongCat-Video 基于 136 亿参数的视频生成大模型,同时支持文字转视频、图片转视频和视频续写,让创意能够持续往前推进。它不是只会做几秒炫酷短片,而是从训练阶段就融入了长时序逻辑,让光影不飘、角色不丢、剧情不突兀,几分钟的视频也能顺畅连贯。效率方面也非常能打:720p、30fps 的长视频几分钟即可生成,再配合强化学习不断提升文本对齐、画质与动作一致性,让开源模型也能拥有行业级竞争力。

文章图片
#音视频#人工智能#深度学习 +1
从几秒走向几分钟:长视频生成进入 LongCat 时刻

LongCat-Video 基于 136 亿参数的视频生成大模型,同时支持文字转视频、图片转视频和视频续写,让创意能够持续往前推进。它不是只会做几秒炫酷短片,而是从训练阶段就融入了长时序逻辑,让光影不飘、角色不丢、剧情不突兀,几分钟的视频也能顺畅连贯。效率方面也非常能打:720p、30fps 的长视频几分钟即可生成,再配合强化学习不断提升文本对齐、画质与动作一致性,让开源模型也能拥有行业级竞争力。

文章图片
#音视频#人工智能#深度学习 +1
大模型推理的「加速神器」,使用 vLLM 对 Qwen2.5 推理实操教程

选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。如果我们对模型进行微调,那么系统就不那么重要了,因为无论我们使用哪个系统提示,模型都会从目标中学习该做什么。该教程为使用 vLLM 加载 Qwen2.5-3B-Instruct-AWQ 模型进行少样本学习,包括

文章图片
#python#开发语言#人工智能 +3
DeepSeek 开源多模态大模型 Janus-Pro-7B,一键完成图像理解 & 文生图

Janus-Pro 是一种新颖的自回归框架,它统一了多模态理解和生成,由中国 AI 企业 DeepSeek 于 2025 年开发的开源多模态大模型,它通过将视觉编码解耦到单独的路径来解决以前方法的局限性,同时仍然使用单一的、统一的转换器体系结构进行处理。选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择

文章图片
#人工智能#机器学习#深度学习 +2
助力解析化学图像生成文本分析,化学大语言模型 ChemVLM 来啦!

该模型旨在解决化学图像理解与文本分析之间的不兼容问题,通过结合视觉 Transformer (ViT)、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势,实现了对化学图像和文本的全面推理。可以看到模型针对图像准确描述了图像的内容是黄色的液氮罐,接着我们可以继续问它一个问题,比如我们输入「液氮的化学分子式是什么」。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 A100的算力和

文章图片
#语言模型#人工智能#自然语言处理 +2
强势超越 Llama3? Gemma2 中文版谷歌开源大模型 Gemma2-9B-Chinese-Chat 教程来了

进入 OpenBayes 平台后,打开「公共教程」,找到「一键部署 Gemma-2-9B-Chinese-Chat」的教程。比如我们输入「我的蓝牙耳机坏了,我该去看牙科还是耳鼻喉科」,它给我们的回答非常合理,中文理解能力非常优秀。Temperature 可以改变模型输出的随机性,Temperature 的值越大,模型的输出越随机;等待系统分配资源完成后,将鼠标悬停在「API 地址」处,点击上方链接

文章图片
#人工智能#语言模型#机器学习 +3
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择