logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI大模型前沿】Qwen3-Omni:阿里巴巴通义千问团队引领全模态大模型新突破

Qwen3-Omni 是阿里巴巴 Qwen 团队最新开源的原生端到端多语言“全模态”大模型,一次性打通文本、图片、音频、视频的理解与生成,并且能做文字 + 自然语音的实时流式响应(自然轮流对话、低延迟首包)。它支持 119 种文本语言、19 种语音输入、10 种语音输出,既能“听懂世界”,也能流利地“说出来”,在加入音视能力后,并没有牺牲纯文本与图像基准的表现,同时在音频 / 音视频任务上拿到非常

文章图片
#人工智能#开源#AIGC +1
【AI大模型前沿】Qwen3-Omni:阿里巴巴通义千问团队引领全模态大模型新突破

Qwen3-Omni 是阿里巴巴 Qwen 团队最新开源的原生端到端多语言“全模态”大模型,一次性打通文本、图片、音频、视频的理解与生成,并且能做文字 + 自然语音的实时流式响应(自然轮流对话、低延迟首包)。它支持 119 种文本语言、19 种语音输入、10 种语音输出,既能“听懂世界”,也能流利地“说出来”,在加入音视能力后,并没有牺牲纯文本与图像基准的表现,同时在音频 / 音视频任务上拿到非常

文章图片
#人工智能#开源#AIGC +1
【AI大模型前沿】Qwen3-VL:阿里云通义千问的多模态视觉语言模型,开启智能交互新纪元

Qwen3-VL是阿里云通义千问团队发布的多模态视觉语言模型系列,旨在通过强大的视觉和语言处理能力,实现更自然、更智能的人机交互。该模型系列具备卓越的视觉交互能力、纯文本处理能力、视觉编程能力、空间感知与推理能力、长上下文与长视频理解能力、多模态推理与思考能力、全面升级的视觉感知与识别能力以及多语言OCR与复杂场景识别能力。

文章图片
#人工智能#阿里云#语言模型 +2
【AI大模型前沿】Qwen3-VL:阿里云通义千问的多模态视觉语言模型,开启智能交互新纪元

Qwen3-VL是阿里云通义千问团队发布的多模态视觉语言模型系列,旨在通过强大的视觉和语言处理能力,实现更自然、更智能的人机交互。该模型系列具备卓越的视觉交互能力、纯文本处理能力、视觉编程能力、空间感知与推理能力、长上下文与长视频理解能力、多模态推理与思考能力、全面升级的视觉感知与识别能力以及多语言OCR与复杂场景识别能力。

文章图片
#人工智能#阿里云#语言模型 +2
【AI大模型前沿】Qwen3Guard:阿里云通义千问团队推出的安全防护模型

Qwen3Guard 是阿里云通义千问团队推出的安全防护模型,旨在为 Qwen 系列大语言模型提供全面的安全保障。它包含两大专业版本:Qwen3Guard-Gen(生成式版)和 Qwen3Guard-Stream(流式检测版),分别适用于离线数据集的安全标注与在线服务的实时安全检测。该模型支持 119 种语言及方言,能够输出细粒度的风险等级与分类标签,有效应对多语言场景下的安全挑战。

文章图片
#人工智能#阿里云#云计算 +3
【AI大模型前沿】Qwen3Guard:阿里云通义千问团队推出的安全防护模型

Qwen3Guard 是阿里云通义千问团队推出的安全防护模型,旨在为 Qwen 系列大语言模型提供全面的安全保障。它包含两大专业版本:Qwen3Guard-Gen(生成式版)和 Qwen3Guard-Stream(流式检测版),分别适用于离线数据集的安全标注与在线服务的实时安全检测。该模型支持 119 种语言及方言,能够输出细粒度的风险等级与分类标签,有效应对多语言场景下的安全挑战。

文章图片
#人工智能#阿里云#云计算 +3
【AI大模型前沿】百度Qianfan-VL:企业级多模态大模型的领域增强解决方案,OCR、数学、图表一把抓

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型,提供 3B、8B 和 70B 三种规格,具备出色的通用能力,并针对 OCR、教育等垂直领域进行了专项强化,能够精准满足不同场景下的多模态理解需求。

文章图片
#人工智能#百度#开源 +1
【AI大模型前沿】百度Qianfan-VL:企业级多模态大模型的领域增强解决方案,OCR、数学、图表一把抓

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型,提供 3B、8B 和 70B 三种规格,具备出色的通用能力,并针对 OCR、教育等垂直领域进行了专项强化,能够精准满足不同场景下的多模态理解需求。

文章图片
#人工智能#百度#开源 +1
【AI大模型前沿】小米开源语音大模型 Xiaomi-MiMo-Audio:开启语音领域的LLaMA时刻

Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型,基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。该模型在多项标准评测基准中表现出色,大幅超越同参数量的开源模型,取得7B最佳性能。小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型

文章图片
#人工智能#开源#AIGC +1
【AI大模型前沿】小米开源语音大模型 Xiaomi-MiMo-Audio:开启语音领域的LLaMA时刻

Xiaomi-MiMo-Audio 是小米开源的首个原生端到端语音大模型,基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。该模型在多项标准评测基准中表现出色,大幅超越同参数量的开源模型,取得7B最佳性能。小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型

文章图片
#人工智能#开源#AIGC +1
    共 77 条
  • 1
  • 2
  • 3
  • 8
  • 请选择