logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型的性能提升:KV-Cache

这样一来,在后续的 softmax 操作中,这些位置的值会趋近于零,从而确保每个 token 在预测时只能关注到它之前的历史 token,而不会看到未来的输入。其核心思想在于缓存每一步计算生成的 Key 和 Value 向量,使得在生成新 token 时,模型无需重复计算历史上下文中的 K 和 V 值,从而大幅减少冗余计算,加快响应生成。KV-Cache的运行速度实际上受到多种因素的综合影响,其中

什么可能会定义人工智能的下一个十年?

以OpenAI描绘的智能进化路线图中,从chatbot->reasoner->agent->innovator到最后的organizer,懂语言进入到chatbot,推理能力加持下使用工具助推走到agent阶段,MCP作为Anthropic推出的标准工具协议,一推出便迅速成为行业的标准,使得大模型连接已有API等工具生态变得非常便捷,本书深入浅出,既有MCP的协议、原理等,也有诸多案例实践,是大模

#人工智能
智能体间协作的“巴别塔困境“如何破解?解读Agent通信4大协议:MCP/ACP/A2A/ANP

MCP不是用所有可能的细节来填充提示词,而是帮助组合重要的背景信息,采用模块化的、即时的提示词构建,使用更智能的背景信息,更少的token,得到更好的输出。ACP采用了完全不同的方法。智能体的理解是根据上下文注入的,而不是自我建模的。ANP的核心概念是Interface,包括自然语言接口和结构化接口,将智能体交互方式的定义下放到了Interface中,支持自主发现、去中心化身份验证和语义推理,虽然

#arm开发
性能狂飙?关于《分布式系统性能优化:方法与实践》

全书形成了从理论到方法再到实战的完整链路,覆盖架构、网络、缓存、事务、存储等核心环节,并结合大型在线系统与大模型的案例,既有深度,又贴近实践。从性能评估到各种优化手段,不管是微服务的架构设计,还是分布式缓存的调优,甚至是高并发直播系统的调度,每一章都能让你收获满满,更有底层协议和难得的曾经走过的“弯路”说明。年的软件工程实践中,我们经历了从汇编到C,从C++到Java,从Perl到Python,从

#性能优化
全网首发:安全性问题,使MCP成为AI应用的双刃剑,如何化险为夷呢?

例如,当AI请求获取订单#123的客户信息时,系统应仅返回该特定订单的数据,而非暴露整个客户数据库——这种防御性策略既降低了数据泄露的潜在风险,也符合信息安全领域的最小特权原则。这些问题的解决方案构成了MCP安全框架的基础——通过强制TLS加密消除MITM攻击路径,采用短期令牌配合动态轮换机制降低令牌泄露后的影响窗口,同时对AI生成的所有输入请求实施严格的验证流程以防范提示注入攻击。忽视这些安全准

#人工智能
从零构建大模型之Transformer公式解读

解码器层是相似的,但有一个额外的多头注意力子层,允许参与编码器的输出。另一方面,交叉注意力专注于故事的具体细节,以确保随着你的进步,能将最相关的信息融入到你的理解中。解码器的多头注意力子层,包括掩蔽的多头注意力和标准的多头注意力(注意编码器的输出) ,共同生成输出序列。【引】收到图灵寄来的两本书《大模型应用开发极简入门》和《从零构建大模型》,重新点燃了自己深入理解大模型内部机制的热情,不能只知其然

#transformer#深度学习#人工智能
全网首发:MCP 的10种架构模式

在许多应用场景中,现有的 API 已经具备明确的功能定义和稳定的接口规范,适合作为人工智能系统的一部分进行集成。对于初次引入 MCP 的团队,建议从简单模式入手,逐步建立技术基础和操作经验,在系统成熟度不断提升的基础上,再向更复杂的架构演进。然而,在实际部署中,选择合适的架构模式至关重要,直接影响 AI 系统的扩展性、稳定性和维护效率。但另一方面,由于其本质上是对原有 API 的封装,缺乏针对 A

#架构
大模型应用的10个架构挑战

[引] 在英国,时差有点乱。拾起年初的文字,迎接新春大吉!ChatGPT从正式发布到拥有1亿用户仅仅用了5天的时间,基于大型语言模型(简称大模型,或基础模型)的应用给软件行业乃至整个社会带来巨大的影响。作为一名软件系统的架构师,除了传统的软件系统质量属性约束之外,还要面对由于大模型应用的自身特点所带来的新约束,面对更多的权衡,也面临着更多的挑战。基于笔者近年来的探索与实践,这里列举了面向大模型应用

#架构
如何选择Embedding Model?关于嵌入模型的10个思考

然后是每个令牌的成本,这关系到使用费用的问题;举个例子,在法律领域的RAG系统中,如果使用了专门针对法律术语训练的嵌入模型,那么系统就能更好地找到与查询相关的法律文件,并保证引用的判例法资料既准确又贴切上下文。这种方法虽然能显示出词语间的关系,但不能识别同一个词在不同场合下的不同意思,像“银行”这个词,在指河边的“河岸”时和作为金融机构的“银行”时的意思就被混为一谈了。相反,那些拥有丰富计算资源的

大模型的温度?解读Temperature

在连续的下一个单词生成中,gpt-2 给出一个初始输入句子,并以自回归的方式预测下一个最可能的单词。一旦下一个单词被预测,它就会被输出,这个过程就停止了,意思是一次只生成一个单词. 根据模型的学习关联,基于最高概率选择单词,并且除非使用新的输入重复该过程,否则不会发生进一步的预测。LLM 中的温度参数控制生成文本的随机性。当比较 0.5 和 10.0 两种温度下的输出时,我们观察到在 0.5 的温

    共 150 条
  • 1
  • 2
  • 3
  • 15
  • 请选择