登录社区云,与社区用户共同成长
邀请您加入社区
阿里发布Qwen3-Omni-Flash全模态大模型,支持视频、语音、文本多模态实时交互。该模型在数学推理、音频理解、语音生成等方面表现突出,在多项基准测试中超越GPT-4o和Gemini。支持119种文本语言和19种语音识别语言,具备拟人化语音合成能力。适用于虚拟助手、视频分析等场景,通过阿里云平台提供实时视频分析、语音对话等功能,向AGI通用智能迈进一步。
工业级语音合成系统 GLM-TTS 正式发布,并已开放模型权重。它用约 10 万小时数据训练,实现了“3 秒”音色复刻与更强的文本理解能力,并在多个开源测试集上把字错误率与情感表达做到了开源SOTA
本次发布中第二重要的基准测试是 SWE-Bench Pro,这是一项难度较高的软件工程评估测试,GPT-5.2 在该测试中获得了 55.6% 的分数。它点击进入单个房源,提取结构化字段,选择社区和价格区间(我本可以自己设置这些筛选条件,但我实际上并没有搬家的打算),然后生成了一份简短的、排名靠前的候选名单。如果一个模型能够记住一篇90页文章深处隐藏的某个转瞬即逝的晚餐食谱,那么它就能追踪代码库中的
智谱AI开源GLM-4.6V多模态大模型,实现从"理解图片"到"完成任务"的突破。该系列包含高性能云端版(106B-A12B)和轻量本地版(9B),具备128k超长上下文处理能力和SOTA视觉精度。其核心创新在于原生多模态工具调用和视觉-行动闭环,支持直接处理图像并生成可执行行动,适用于图文创作、电商导购、前端开发等场景。模型已全面开源,提供本地部署、云端A
阿里开源6B参数图像生成模型Z-Image,在消费级显卡上实现2-3秒快速出图,生成质量媲美主流大模型。该模型通过数据、架构等系统性优化,在细节刻画、光影表现等方面表现突出,支持本地部署和商用。Z-Image的出现标志着"专家模型"时代的到来,未来AI生态可能由众多专注领域的小模型协同构成,通用大模型则扮演智能调度中枢角色。这种轻量化、专业化的发展路径,或将推动AI向更实用、高
2025年人工智能领域CCF推荐A类国际会议概览:本文详细介绍了7个AI领域顶级国际会议的最新信息。AAAI(录用率17.6%)、CVPR(22.1%)、ICCV(24%)、ICML(26.9%)、NeurIPS(24.52%)、ACL(20.3%)和IJCAI(19.3%)等会议投稿量持续攀升,竞争日趋激烈。各会议均采用双盲评审,注重创新性和严谨性,投稿需特别注意格式规范和匿名要求。这些会议在学
你真的会用ai?
Claude Code 推出 Sub Agents 子代理功能,让你告别单一AI助手,组建专属“AI专家团队”。每个子代理专注特定领域(如前端、后端、测试),拥有独立上下文与定制提示词,避免信息过载,提升开发效率。支持自动委派或显式调用,可跨项目复用并共享协作。从代码生成到架构设计,一人即可驱动全员AI的高效开发流程——真正实现“一人公司,全员AI专家”!
这一次,不仅推理能力逼近 GPT-5 和 Gemini-3.0-Pro,更首次实现了 “思考 + 工具调用”的深度融合,让开源模型真正具备了实用级 Agent 能力。在多个权威推理评测(如 AIME、HMMT、LiveCodeBench)中,V3.2 的表现与 GPT-5 相当,仅略逊于 Gemini-3.0-Pro。在主流 Agent 评测(如 Tool-Decathlon、MCP-Mark)中
谷歌Nano Banana Pro震撼来袭 ,和最强模型Gemini 3合作一同创造整个世界!