登录社区云,与社区用户共同成长
邀请您加入社区
在2025年华为开发者大会(HDC 2025)上,华为正式推出盘古大模型5.5版本。延续"产业赋能"定位,此次升级涵盖五大核心模型体系:自然语言处理(NLP)、多模态感知、预测分析、科学计算及计算机视觉(CV),通过架构创新推动行业智能化转型。华为云CEO张平安现场宣布,盘古5.5的NLP能力已对标国际顶级模型,多模态世界模型实现国内首创。
OpenAI 长期以来一直是人工智能领域的领军者,持续推动机器学习模型的能力进阶。其最新推出的 o3-pro 模型,标志着这一探索之旅中的又一个重要里程碑。o3-pro 于 2025 年初发布,以卓越的性能和适应性脱颖而出,成为 AI 领域的颠覆者。本文将深入探讨 OpenAI o3-pro 的基准测试表现、定价策略及 API 定价,详细解析这款模型为何能成为极具突破性的创新成果。
谷歌发布了 Gemini 2.5 06-05 预览版,这是其旗舰产品 Gemini 2.5 Pro 的升级版,再次突破了人工智能的界限。最新版本带来了显著的增强,尤其是在编码、推理和创意输出方面,使其成为人工智能领域的领导者。开发者、企业和普通用户现在可以通过 Google AI Studio、Vertex AI 和 Gemini 应用探索其先进的功能。
DeepSeek R1 模型已完成小版本升级,当前版本为 DeepSeek-R1-0528。用户通过官方网站、APP 或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。API 也已同步更新,调用方式不变。
在SWE-bench Verified中,该模型对真实世界的编码任务评分为72.7%,略微超过Opus 4(72.5%),并显著领先于Claude 3.7 Sonnet(62.3%)。在SWE-bench Verified中,它的得分为72.5%,而在高计算设置下,这一分数跃升至79.4%——在所有对比模型中最高。与Sonnet 4一样,它支持200K的上下文窗口,因此如果您想将其与大型代码库一起
2025年5月7日,OpenAI宣布启动“OpenAI for Countries”计划,目标是为全球各国构建本土化的AI基础设施,提供定制化服务。这一计划被视为其“星际之门”项目的全球化延伸,以技术合作为核心,覆盖数据中心建设、模型适配与产业生态培育。
在这次 Manus AI 与操作智能体的比较中,我们将探究中国首款人工智能体的各项功能,并将其性能与 ChatGPT 上的 OpenAI 智能体进行对比。在 Manus AI 与 OpenAI Operator 对比的这一部分中,我们将在两个模型上测试三个不同的提示,并比较它们的响应。Manus AI 的界面与 OpenAI 的 ChatGPT 以及 Anthropic 的 Claude 3.7
了解 Qwen3 套件,包括其架构、部署以及与 DeepSeek-R1 和 Gemini 2.5 Pro 相比的基准。
LangChain是一个开源框架,通过**模型I/O、链(Chains)、代理(Agents)、内存(Memory)**四大核心组件,将大语言模型(LLM)与外部数据、工具无缝连接。其优势在于模块化设计,开发者可自由组合预置工具库(如500+工具)或自定义流程,快速搭建问答系统、聊天机器人等应用。两者的协同将是大模型应用落地的关键——正如Zapier连接工作流,未来的AI原生生态需兼顾灵活性与标准
在 MultiChallenge 测试中,该测试评估模型是否能够遵循多轮指令,并记住在谈话中引入的约束,GPT-4.1 的得分为 38.3%,较 GPT-4o 的 27.8% 有所提升。而在 IFEval 测试中,该测试评估是否遵循明确规定的输出要求,GPT-4.1 的得分达到 87.4%,较 GPT-4o 的 81% 也有了稳步提升。在 Aider 的多语言 diff 基准测试中,GPT-4.1