logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大家都可以调用LLM API,AI套壳产品的护城河在哪里?

你最初的优势是拥有完整的代码上下文,这是实现这一切的前提;比如一款解梦场景的 AI 应用,允许用户每天早晨记录梦境,基于梦境生成 AI 视频,维护一个专属的梦境日记,并且能随着时间推移揭示梦境中存在的模式 —— 这样的产品就完整地解决了一个用户真正想要完成的深层任务。诚然,用户也可以向 ChatGPT 描述梦境,甚至它还能保存历史记录,但专用的解梦应用却能通过特定字段(如反复出现的人物、地点、物品

文章图片
#人工智能#AI
图解「模型上下文协议(MCP)」:从与传统 API 的比较入手

文章详细介绍了 MCP 的核心架构,包括 Host(提供 AI 交互环境的应用程序)、Client(实现与 MCP Servers 通信)和 Server(提供特定能力和数据访问)三大组件。我们今天带来的这篇文章,作者的核心观点是:MCP 通过标准化通信协议,让 AI 应用与外部工具、数据的交互如同 USB-C 接口一般高效且灵活,彻底改变传统 API 架构的僵化限制。MCP 的核心遵循客户端-服

文章图片
#GenAI#人工智能#AIGC +1
「DeepSeek-V3 技术解析」:无辅助损失函数的负载均衡

在混合专家模型(MoE)的实践中,负载不均衡俨然已成为制约模型性能提升的关键瓶颈之一。传统的均衡策略往往需要引入复杂的辅助损失函数,不仅增加了训练的复杂度,还可能干扰模型的核心学习目标。工程师们在提升模型效率的道路上,一直苦苦追寻着一个优雅而高效的平衡解决方案。DeepSeek 团队的这项研究,为这一长期困扰业界的技术难题提供了令人耳目一新的解决思路:通过在门控分数中直接添加专家层面的偏置项,在绝

文章图片
#GenAI#人工智能#DeepSeek +1
上下文管理策略综述

文章系统剖析了长上下文常见的四大失效模式——上下文污染、干扰、混淆与冲突,并提出了六种行之有效的上下文管理策略:RAG(检索增强生成)、工具选配、上下文隔离、修剪、摘要与卸载。尽管这一现象尚属个案,但却揭示了这样一个现象:用于检索任务的长上下文,与用于多步生成式推理的长上下文,有着根本不同的要求和挑战。这类设计模式特别适用于研究类任务。我们今天为大家带来的这篇文章,作者的核心观点是:上下文不是免费

文章图片
#人工智能#AI
大语言模型推理优化技术综述(The Art of LLM Inference)

遗憾的是,第 3 层之后的模型层通常非常稀疏。这种方法能够大大减少所需的计算量 —— 即使 query 的符号(sign)变化,后续的乘积运算通常仍能得到最大值:当 query 符号为负时,乘以最小值必然得到最大输出值,反之亦然。在图中,2048 个词槽被一个包含 7 个单词的提示词(“four, score, and, seven, years, ago, our”)占用了,后续生成的 4 个单

文章图片
#GenAI#人工智能#AI
LLMs.txt:让大模型更懂你的 Web 文档

然而,它们在处理网站内容时往往受限于有限的上下文窗口,加上 HTML 页面中大量非核心内容的干扰,导致理解效率低下。随后,越来越多的由 Mintlify 托管的文档开始采用这一标准,为 LLMs.txt 的提议创造了一波知名度。与 /llms.txt 仅提供导航视图和文档结构不同,/llms-full.txt 包含了全部的文档内容,这些内容都是用 markdown 编写的。目前,LLMs.txt

文章图片
#人工智能#GenAI#AIGC
为什么说 JSON 不一定是 LLM 结构化输出的最佳选择?

如前文所述,CSV 格式的挑战在于逗号在数据中较为常见,这可能会导致两种情况:要么是需要更多的 tokens 来处理这些逗号,要么是 LLM 在处理时未能正确进行转义,从而产生错误的数据。因此,如果你的数据可能包含逗号,最好避免使用 CSV,或者设计一个详尽的提示词,并实施有效的评估流程,以便准确衡量其可靠性。我们今天为大家带来的文章中,作者通过实际测试给出建议:在某些场景下,相比广泛使用的 JS

文章图片
#json#人工智能#GenAI
「DeepSeek-V3 技术解析」:多词元预测技术(Multi-Token Prediction, MTP)

此外,该技术可与推测解码(speculative decoding)结合,在推理时,MTP module 并行生成草稿词元,main model 通过单次前向传播验证并修正,凭借 85%-90% 的高接受率实现 1.8 倍的推理加速。在文献 [2] 中,作者尝试通过 MTP 技术预测未来的 2 个词元(token),并将其与推测解码相结合,结果发现第二个词元预测的接受率约为 85%~90%,这表明

文章图片
#AI#GenAI#人工智能
LLM Agent 协作评估难?这 3 款评估监控工具来帮忙

在评估过程中,我通常觉得评估对话记录部分更有帮助,它能告诉我们各个 Agents 的具体行为,从而我们可以据此调整相应的提示词,并且还能帮助决定对话的轮数。简而言之,这就像将不同的任务分配给不同的人,并指导他们通过团队讨论来共同打造出一个完善的解决方案,类似于我们在头脑风暴会议中的做法。采用 Agentic 方法,基于上述情况,我们可以创建三个 Agent:一个是负责检索任务的检索器 Agent,

文章图片
#人工智能#GenAI
2025 年大语言模型架构演进:DeepSeek V3、OLMo 2、Gemma 3 与 Mistral 3.1 核心技术剖析

实际上,在今年 1 月发布时(早于 Llama 4、Gemma 3 和 Qwen 3),OLMo 2 系列模型正处于计算效率与性能的帕累托前沿【译者注:“帕累托前沿”(Pareto Frontier)是一个起源于经济学和优化理论的重要概念,它描述的是一种最优状态,在这种状态下,任何一方的利益或某个目标的提升都无法不以牺牲其他方利益或其他目标的下降为代价。今天我们为大家带来的这篇文章,作者的核心观点

文章图片
#语言模型#人工智能#AI +1
    共 210 条
  • 1
  • 2
  • 3
  • 21
  • 请选择