
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文主要探讨了在预训练模型瓶颈显现的背景下,后训练和推理计算的重要性,并建议从模型服务(serving)入手,因为这是模型应用的第一步。文章比较了SGLang和vLLM两个框架,它们分别来自斯坦福和UC伯克利,功能相似,但各有特色。SGLang提供了丰富的服务功能,如chunkedprefill、speculativedecoding、radixattention和structured

RAG(Retrieval-Augmented Generation)检索增强生成是一种将外部知识检索与大语言模型生成能力结合的混合架构。其核心思想是通过检索外部知识库(如文档、数据库、网页等),弥补大模型静态训练数据的局限性;在生成答案时直接依赖检索到的证据,减少模型凭空编造内容的可能性,降低幻觉风险。RAG无需重新训练模型,仅需更新知识库即可适配不同专业领域(如医疗、法律)。类似将大模型视为一

01大模型微调初步尝试:多位数乘法本文记录了本人在大模型微调任务上的初步尝试,其任务为让大模型学会多位数(实际上是 3 位数及以内)的乘法,并且按照给定的步骤输出过程(Chain of Thought)。LoRA 微调的原理LoRA 的原理网上已经有很多资料给了说明,这里稍作讲解:LoRA = Low Rank Adaption,也就是用一个低秩矩阵去拟合参数。有一些说法认为 LoRA 可以避免模

网上虽然教学资料、路线非常多,我们也不否认有些确实有可取之处,但是我们认为一个好的路线,不仅仅只是一条线,应该是点——线——面,三重结合,应该具有系统、规划、全面、细致这四个特性,而这也是网上资源所缺失的,我们本着这个原则,给大家整理了一份2023年系统全面、具有规划的Java学习路线图。我们深知,有很多同学对于培训费用、是否适合、怎么学等等有着各种各样的顾虑,在网上各大平台搜寻着学习方法资料等等

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模

网上虽然教学资料、路线非常多,我们也不否认有些确实有可取之处,但是我们认为一个好的路线,不仅仅只是一条线,应该是点——线——面,三重结合,应该具有系统、规划、全面、细致这四个特性,而这也是网上资源所缺失的,我们本着这个原则,给大家整理了一份2023年系统全面、具有规划的Java学习路线图。我们深知,有很多同学对于培训费用、是否适合、怎么学等等有着各种各样的顾虑,在网上各大平台搜寻着学习方法资料等等

大部分常用的 Python 库,在定义插件时都可以直接导入(比如 json,time,random)。其他一些必要的模块(比如 requests,datetime等),还可以从左侧的依赖包中添加,这就给了插件模块比代码模块高了几个维度的灵活性。

最近看到很多文章都在谈mcp,但是很多文章都会给人一种感觉——看了,也好像啥也没看。本质上还是没懂,今天我们一起来学习下啥是mcp,让我们在一个极短的时间内,以说人话的方式,快速吃透它,让它为您所用。

本文回顾了作者一年前初次接触Transformer模型时的困惑,特别是对Self-Attention机制的理解。作者通过重新阅读相关论文,深入探讨了Self-Attention的核心概念,包括QKV矩阵的作用、向量内积的几何意义以及矩阵运算的核心思想。文章详细解释了键值对注意力的公式,并通过实例展示了矩阵XXT的意义,即通过内积计算向量间的相关性。此外,作者还讨论了Softmax操作在注意力机制中








