logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o

与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...

文章图片
生成式AI推理技术、市场与未来

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布,预示着生成式AI研究正从预训练转向推理(Inference),以提升AI逻辑推理(reasoning)能力,这一转变将极大推动上层应用的发展。红杉资本近期指出,在可预见的未来,逻辑推理和推理时计算将是一个重要主题,并开启生成式AI的下一阶段。新一轮竞赛已然开始。那么,在推理这一新兴市场,

文章图片
#人工智能#语言模型
击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世

6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V

文章图片
LLM逻辑推演策略选择:推理时计算 vs 训练时计算

AGI实现的一大标志是,具备人类级别的逻辑推理(reasoning)能力。近期,随着推理(inference)模型GPT o1、DeepSeek R1-Lite的发布,模型的逻辑推理能力得到显著提升,也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标,美国人工智能与密码学研究实验室Bagel团队结合最新研究,从算术、常识和符号这三种主要逻辑推理类型出发,对比了在推理

文章图片
#人工智能#语言模型
首发!硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务

DeepSeek-R1、DeepSeek-V3 开源后引发全球震动,它们是深度求索团队为全人类献上的一份大礼,我们由衷为他们取得的成功感到高兴。经过硅基流动和华为云团队连日攻坚,今天,我们也为国内用户献上春节礼物:大模型云服务平台 SiliconCloud 首发上线基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1。 需要特别强调的是,无论是在昇腾上适配 DeepSeek-R.

#华为云
OpenAI停服,国产大模型免费用!开发者Token自由实现了

昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...

文章图片
大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o

与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...

文章图片
国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级

近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以

文章图片
语言大模型推理加速指南

本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能从中有所收获。本文作者为工程师和计算语言学家Theia。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://vgel.me/posts/faster-inference/)作者 |TheiaOne.

文章图片
#人工智能#语言模型
10倍工程师的高效编码工具:Cursor x SiliconCloud x DeepSeek v2.5

Cursor 是一个基于 VSCode 开发的 AI 代码编辑器,提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能,在 Cursor 中使用硅基流动 SiliconCloud 的 API,接入DeepSeek v2.5、Qwen2.5等大模型,通过高效、价格亲民的 API 服务,数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...

文章图片
#AI
    共 101 条
  • 1
  • 2
  • 3
  • 11
  • 请选择