logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Opus 4.6 vs GPT-5.3 Codex编程能力深度对比报告

**摘要:**2026年2月,Anthropic的Opus 4.6与OpenAI的GPT-5.3 Codex同步发布,标志着AI辅助开发进入新阶段。Opus 4.6作为“架构师”,专注深度推理与系统设计,在复杂问题处理上表现突出(OSWorld评分72.7%)。GPT-5.3 Codex则定位为“极速者”,以执行速度和交互性见长(Terminal-Bench评分77.3%)。行业趋势转向混合模式:

文章图片
谷歌 Gemini 3 Deep Think 对刚 GPT-5.2 与 Opus 4.6,AI 终于长“脑子”了

AI巨头"神仙打架":谷歌Gemini 3开启深度思考新时代 过去一周,AI领域迎来重大突破:Anthropic推出Opus 4.6,OpenAI发布GPT-5.2,而谷歌祭出杀手锏Gemini 3 Deep Think。三大巨头各有所长:Claude专注拟人化表达,GPT-5.2强化多模态交互,而Gemini 3则突破性地实现了"系统2思维",具备科学推理

文章图片
#人工智能
别再拿 AI 当聊天搭子了:Gemini 3.1 Pro 核心数据与极客玩法大揭秘

Google发布Gemini 3.1 Pro,专为复杂任务设计。其逻辑推理能力显著提升,在ARC-AGI-2测试中得分77.1%,远超前代31.1%。开发者测试显示,它可精准处理超长代码库,错误率大幅降低。此外,对非结构化数据的处理准确率提高6%,达67%。社区极客已用其生成矢量动画、修复代码竞态条件、书写中文书法及合成视觉研报,展现了强大的多场景应用能力。Gemini 3.1 Pro正重新定义A

文章图片
#人工智能#语言模型
OpenAI 发了 GPT-5.4,这次不是升级,是换赛道

OpenAI发布GPT-5.4,标志着AI从对话助手向数字员工的重大转变。该版本首次整合了聊天、编程和电脑操作三大功能,在OSWorld测试中达到75%通过率,超越人类平均水平。新增的"中途打断"功能允许实时调整AI工作方向,Excel插件则能直接处理数据建模等专业任务。编程方面融合了Codex能力,并能自动测试代码。ToolSearch机制降低47%的Token消耗,安全性能

文章图片
#人工智能
这不是愚人节玩笑 Anthropic 官方工具 Claude Code 自己把源码给泄露了

摘要: 2026年初,Anthropic旗下AI编程助手Claude Code的51.2万行TypeScript源码因DevOps失误意外泄露,暴露了其工程架构与未发布功能。事件揭示了顶级AI产品的矛盾:一方面包含创新的自愈记忆系统与多智能体协同设计;另一方面却存在单文件巨石架构等工程瑕疵。未发布功能如后台静默Agent(KAIROS)、终端电子宠物(BUDDY)展现了游戏化与多模态交互的未来方向

文章图片
#人工智能
OpenClaw爆火后工信部紧急预警:普通人使用AI智能体,这7条保命指南必须牢记

近期,工业和信息化部网络安全威胁和漏洞信息共享平台监测发现OpenClaw(俗称“龙虾”)开源AI智能体部分实例在默认或不当配置情况下存在较高安全风险,极易引发网络攻击、信息泄露等安全问题。普通人使用AI智能体,这7条保命指南必须牢记。

文章图片
#人工智能
一文搞懂决定AI智能体成败的“驾驭工程” (Harness Engineering)

摘要:AI智能体开发正经历从提示工程到驾驭工程(Harness Engineering)的范式转变。研究表明,AI表现不佳往往源于错误的工作环境而非模型本身。驾驭工程通过构建包含渐进式信息披露、即时验证机制和状态锚点的系统,显著提升AI效率(如OpenAI团队实现百万行代码自动生成)。这提示开发者:1)工作重心应从编码转向环境设计;2)需建立结构化反馈机制;3)未来竞争力在于模型与工作流的深度整合

文章图片
#人工智能
谷歌 Gemini 3 Deep Think 对刚 GPT-5.2 与 Opus 4.6,AI 终于长“脑子”了

AI巨头"神仙打架":谷歌Gemini 3开启深度思考新时代 过去一周,AI领域迎来重大突破:Anthropic推出Opus 4.6,OpenAI发布GPT-5.2,而谷歌祭出杀手锏Gemini 3 Deep Think。三大巨头各有所长:Claude专注拟人化表达,GPT-5.2强化多模态交互,而Gemini 3则突破性地实现了"系统2思维",具备科学推理

文章图片
#人工智能
Qwen3-Coder-Next 证明:能“自愈”的 AI 才是真正的程序员

长期以来,业界有一种迷信:模型越强,参数必须越大。但千问这次给了这种迷信一记响亮的耳光。通过专家蒸馏技术,Qwen3-Coder-Next 证明了:通过精准的信号引导和环境反馈,中等规模的模型完全可以在工程实战中反超那些臃肿的巨兽。这不仅是技术的胜利,更是开源社区的宣言——我们不再卷算力成本,我们要卷的是“智能的效率”。千问正在把这种“工业级”的编程能力,送到每一个开发者手中。

文章图片
#人工智能
别再拿 AI 当聊天搭子了:Gemini 3.1 Pro 核心数据与极客玩法大揭秘

Google发布Gemini 3.1 Pro,专为复杂任务设计。其逻辑推理能力显著提升,在ARC-AGI-2测试中得分77.1%,远超前代31.1%。开发者测试显示,它可精准处理超长代码库,错误率大幅降低。此外,对非结构化数据的处理准确率提高6%,达67%。社区极客已用其生成矢量动画、修复代码竞态条件、书写中文书法及合成视觉研报,展现了强大的多场景应用能力。Gemini 3.1 Pro正重新定义A

文章图片
#人工智能#语言模型
    共 27 条
  • 1
  • 2
  • 3
  • 请选择