Claude 3 大模型再度点燃 AI 战火，性能和速度全面超越 GPT-4

CSDN资讯

12284人浏览 · 2024-03-05 16:26:33

CSDN资讯 · 2024-03-05 16:26:33 发布

出品 | 《新程序员》编辑部

还记得 ChatGPT-3.5 刚火的时候，许多人在网上苦苦寻求入门途径，这时，一群前 OpenAI 员工和研究人员出走并创立了 Anthropic，主打安全的旗号，致力于开发更加安全、可控的人工智能系统。

没过多久，紧跟着 GPT-3.5 的发布时间，Anthropic 在 2023 年 3 月推出了 Claude 大模型，直接获得了「ChatGPT 最强平替」的称号，加持着“纯免费”的超级 buff，甚至一同带火了 Quora 创建的名为 Poe 的大模型集成平台。此后，Anthropic 的每次发布都势必对标 GPT，被视为「ChatGPT 最强劲的竞争对手」。

就在昨晚，Anthropic 再次向 OpenAI 伸出一记重拳，重磅发布新一代的人工智能模型系列 Claude 3，并宣称该系列的三款产品 Opus、Sonnet 和 Haiku 在推理能力、数学计算、编程、多语言理解和视觉处理等领域树立了新的行业标杆。
在这里插入图片描述
Claude 3 系列的三个模型都具有 200,000-token 的上下文窗口，Opus 主打高水平的“类人智能”，Sonnet 则是结合性能与速度的中庸之选，Haiku 可以执行轻量级操作，兼具性价比和速度。这三个模型的命名分别代表着「作品」、「十四行诗」和「俳句」，从大到小概括了每款模型的特色。

当前，用户可通过电子邮件注册免费使用基于 Sonnet 模型的 Claude.ai 聊天机器人服务。然而，最为强大的模型 Claude 3 Opus 仅在订阅付费后才能通过 Anthropic 网站上的“Claude Pro”服务体验，每月收费 20 美元。

目前，Opus 和 Sonnet 已经可以通过 Anthropic 的 API 获取，Haiku 将在随后推出；而 Sonnet 模型除了在 Anthropic API 上可用之外，还已经提前接入亚马逊的 Bedrock 平台，并在 Google Cloud 的 Vertex AI Model Garden 上线。

回想 Claude 的前两次发布，其在能力上都略微落后于 OpenAI 的最佳模型，且 Anthropic 主要宣传的是上下文窗口长度和安全这些重点。这一次，Anthropic 或许终于在性能方面赶超了 OpenAI 的模型。

性能战和价格战——我全都要

相较于前代 Claude 2，Claude 3 在分析、预测、内容创作、代码生成以及多语言对话等方面有所提升。

王牌 Opus 在衡量本科级别专业知识（MMLU）、研究生级别专业推理能力（GPQA）以及基础数学（GSM8k）的测试中，其表现超越了 OpenAI 和谷歌各自最先进的模型 GPT-4 和 Gemini Ultra。

Opus 的实际速度与 Claude 2 和 2.1 相同，但它的性能要强得多。

作为对比，家中老二 Sonnet 的速度则是 Anthropic 先前最佳模型 Claude 2.1 的两倍，并且拥有更高的智能水平。Anthropic 声称，Sonnet 在需要快速响应的知识检索或销售自动化等智能任务上表现出色。

性价比之选 Haiku 在性能、速度及成本方面均优于同类尺寸的其他模型。它能够在不到三秒钟的时间里阅读一篇包含图表和图形、大约 7500 字的密集型研究论文。

这三个模型都有个共同的特点：可以实时给出“近乎即时的响应”，这使其适合时间至关重要的实时客户聊天、自动完成和数据提取。此外，这些模型还具有增强的视觉能力，能够处理照片、图表、示意图，类似于 GPT-4V 和谷歌的 Gemini。

在这里插入图片描述

Anthropic 提供的多模态视觉能力基准图表显示了其在这方面的能力

Anthropic 特别强调，与之前几代及竞品相比，这三个模型在速度和成本效益上均有显著提升（单位为美元）：

在这里插入图片描述此外，Claude 3 模型针对部分客户可处理高达 100 万个 token（这一点与 Gemini Pro 1.5 相似），并且在如此庞大的上下文大小的基准测试中，Opus 模型实现了近乎完美的记忆性，准确率超过 99%。同时，Anthropic 声称 Claude 3 模型降低了无害提示的拒绝率，并且在减少错误答案的同时表现出更高的准确度。

这一点被英伟达的高级科学家 Jim Fan 盛赞，因为当前大模型对无害问题过于谨慎的回答已成为一个普遍现象，凡事都要反复“叠甲”个好几次才能给你答案。但 Anthropic 意识到了这一问题，并强调了他们在降低拒绝率方面的努力。
在这里插入图片描述

同样被 Fan 好评的还有 Claude 在特定领域的专家基准测试。Claude 特意选择了金融、医学和哲学等专家领域，并报告了在这几个领域的性能表现。

在这里插入图片描述
这就不得不提到 Claude 3 的重大突破——合成数据的应用。Anthropic 通过在训练过程中使用合成数据来部分实现 Claude 3 的能力提升。合成数据是指内部使用另一款 AI 语言模型生成的数据，该技术可以拓宽训练数据的深度，以弥补抓取数据集中可能缺失的情景。

在这里插入图片描述

Anthropic 提供的基准图表进一步展示了其性能表现

大模型的未来：比卷性能更重要的事

许多企业对生成式人工智能的一大顾虑在于其可能出现的“幻觉”，即提供错误的信息输出。以最近发生的加拿大航空案例为例，其 AI 聊天机器人向旅客提供了不准确的退款信息，最终法院判决要求航空公司赔偿该名因得到错误信息而起诉的旅客。

Anthropic 表示，Claude 3-Opus 在整体能力和低幻觉率方面能够超越当前市场领导者 GPT-4 Turbo。而相较于 Claude 2.1，Opus 在给出正确答案和减少错误答案方面的表现提升了两倍。研究者通过三个类别来衡量准确性：正确的答案、错误的答案以及在不确定时选择回答不知道而非错误作答。

自两年前创立以来，Anthropic 始终将构建负责任的人工智能作为优先任务，旨在避免性别歧视、种族歧视以及其他有害输出，并在这次的更新宣布了一条新准则：尊重残疾人的权利，以减轻任何可能加剧刻板印象和偏见的输出。

在未来几个月内，Anthropic 计划定期更新 Claude 3 模型系列，并推出工具使用、交互式编程和“高级代理能力”（advanced agentic capabilities）等新功能。Anthropic 表示将继续致力于确保安全措施跟上 AI 性能的发展步伐，并强调目前 Claude 3 模型“带来灾难性风险的可能性极小”。

这似乎是在暗示 GPT——毕竟 Anthropic 的创始人们之所以会离开 OpenAI，其实就是因为安全理念的不符。

在这里插入图片描述

重庆城市开发者社区

长江两岸老火锅，共聚山城开发者！We Want You！

更多推荐

【2023 CSDN年度报告】2023年属于哪种创作风格？一起来测！

重庆城市开发者社区

智能攻防元年：渗透测试Agent迎来大考，AI如何从“能打”走向“可控”

重庆城市开发者社区

马斯克怒斥Sam Altman“变心”，发起诉讼，网友：OpenAI AGI计划因此被推迟到了2027年！...

整理|苏宓出品 | CSDN（ID：CSDNnews）树大招风的 OpenAI 因脚步太快，纷争不断。2024 年 2 月的最后一天，特斯拉 CEO 埃隆·马斯克对刚回归正轨不久的 OpenAI 又丢了一枚“深水炸弹”，向旧金山法院提交了一份 46 页的诉讼报告，宣布起诉 OpenAI 及其 CEO Sam Altman、还有 OpenAI 的联合创始人和总裁 Greg Brockman。山雨..