
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文概述了大模型评估的核心问题和主要测试方法。评估的本质是定义"模型变强"的标准,当前面临评估危机——传统基准饱和而盲测榜单可能被过拟合。文章将评估拆解为输入来源、调用方式、输出判断和结果解读四个环节。重点介绍了五种测试方式:知识类(如MMLU)、指令遵循类(如Chatbot Arena)、智能体类(如SWEBench)、纯推理类(如ARC-AGI)和安全类(如HarmBenc
本文探讨了GPU如何成为大语言模型(LLM)的核心硬件,并分析了相关优化技术。首先对比了CPU与GPU的差异,指出GPU的大规模并行特性天然适合LLM的矩阵运算需求。随后详细解析了A100的层级结构、Tensor Core设计原理,以及GPU的SIMT执行模型和分层内存架构。重点阐述了常见优化手段:低精度计算减少数据搬运、算子融合降低中间结果存储、重计算节省显存、内存合并提高访问效率、分块提升数据

本文系统梳理了现代大语言模型(LLM)在Transformer架构上的关键改进技术。主要内容包括:1)归一化从Post-LN到Pre-LN再到RMSNorm的演进,提升训练稳定性;2)FFN结构的优化,采用GLU门控机制并去除偏置项;3)位置编码从绝对编码到RoPE旋转矩阵的改进;4)注意力机制的各种变体(MQA/GQA/MLA/DSA)在显存和计算效率上的优化;5)超参数设计经验与训练稳定性技术
本文深入探讨了分词器(Tokenizer)在大型语言模型中的关键作用与技术实现。文章首先解释了分词器作为文本预处理组件的重要性,它能决定模型处理文本的基本粒度。随后详细介绍了分词器的整体训练流程,包括数据预处理、多语言语料处理、预分词等关键步骤。重点分析了字符级、字节级、词级和BPE四种主流分词算法的原理与适用场景,其中BPE因其平衡性成为当前主流方法。文章还深入剖析了DeepSeek分词器中字节
本文从概率统计角度揭示了机器学习中损失函数的本质联系:(1) 最小化交叉熵损失等价于最大似然估计,其梯度即为预测概率与真实标签的差值;(2) 交叉熵最小化也等同于最小化KL散度,衡量真实分布与预测分布的差异;(3) 在高斯噪声假设下,最小化均方误差等价于线性模型的最大似然估计。这些结论表明,常见的损失函数设计背后都有坚实的概率统计基础,不同视角(概率、优化、统计)最终导向相同的优化目标。







