logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【必学收藏】阿里Qwen3模型完全解析:从架构到代码实现,带你深入理解大模型原理

很多模型都会在这个基础去创新,比如最开始的MHA–>GQA–>MQA–>MLA,通过上图可以看到GQA核心是将KV进行分组,多个Q给到分组的KV(核心参数:num_kv_groups),从而减少计算和内存开销。在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。整体的一个Qwe

#开发语言#java#python +4
【必学收藏】阿里Qwen3模型完全解析:从架构到代码实现,带你深入理解大模型原理

很多模型都会在这个基础去创新,比如最开始的MHA–>GQA–>MQA–>MLA,通过上图可以看到GQA核心是将KV进行分组,多个Q给到分组的KV(核心参数:num_kv_groups),从而减少计算和内存开销。在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。整体的一个Qwe

#开发语言#java#python +4
【建议收藏】构建可靠AI代理的12个工程原则:告别黑盒,拥抱确定性代码

前阵子,Context Engineering 这个概念很火。于是我就去溯源,把「12-Factor Agents」和 Dex Horthy 在 AI Enginer 上的演讲看了,「12-Factor Agents」是 Dex 结合自己为数百位 Founders、工程师提供顾问的经验,总结出的方法论:把 LLM 视作,把 Agent 看成普通软件中的一段循环和若干switch 分支,并通过 12

#人工智能#大数据#算法 +4
【必收藏】大模型开发新范式:从Prompt Engineering到Context Engineering的全面指南

一方面,专注于构建可扩展系统的前沿实践者们(如 Andrej Karpathy 等),积极倡导用 “Context Engineering” 来描述工作,认为 “Prompt Engineering” 这个词不足以涵盖复杂性,认为它只是 “Coming up with a laughably pretentious name for typing in the chat box(给在聊天框里打字起

#开发语言#java#python +3
【程序员必藏】从零构建大模型文档解析系统:LangGraph+MCP实战,自动生成带图表报告

全流程自动化:从上传到报告生成,无需人工干预高精度解析:结合 MinerU 与 PyMuPDF,兼顾速度与准确性安全可控:支持私有化部署,数据不出内网可扩展性强:基于 LangGraph 的多Agent架构,易于扩展新功能。

#开发语言#java#python +4
到底了