ACCELERATOR_LLC 个人主页

@LLCHS

ACCELERATOR_LLC

2025-01-15 20:34:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【DataWhale组队学习】DIY-LLM Task6 评估与基准测试

本文概述了大模型评估的核心问题和主要测试方法。评估的本质是定义"模型变强"的标准，当前面临评估危机——传统基准饱和而盲测榜单可能被过拟合。文章将评估拆解为输入来源、调用方式、输出判断和结果解读四个环节。重点介绍了五种测试方式：知识类（如MMLU）、指令遵循类（如Chatbot Arena）、智能体类（如SWEBench）、纯推理类（如ARC-AGI）和安全类（如HarmBenc

#人工智能 #深度学习

【DataWhale组队学习】DIY-LLM Task4 GPU和GPU相关的优化

本文探讨了GPU如何成为大语言模型(LLM)的核心硬件，并分析了相关优化技术。首先对比了CPU与GPU的差异，指出GPU的大规模并行特性天然适合LLM的矩阵运算需求。随后详细解析了A100的层级结构、Tensor Core设计原理，以及GPU的SIMT执行模型和分层内存架构。重点阐述了常见优化手段：低精度计算减少数据搬运、算子融合降低中间结果存储、重计算节省显存、内存合并提高访问效率、分块提升数据

#深度学习 #人工智能 #GPU +1

【DataWhale组队学习】DIY-LLM Task3 语言模型架构和训练的技术细节

本文系统梳理了现代大语言模型（LLM）在Transformer架构上的关键改进技术。主要内容包括：1）归一化从Post-LN到Pre-LN再到RMSNorm的演进，提升训练稳定性；2）FFN结构的优化，采用GLU门控机制并去除偏置项；3）位置编码从绝对编码到RoPE旋转矩阵的改进；4）注意力机制的各种变体（MQA/GQA/MLA/DSA）在显存和计算效率上的优化；5）超参数设计经验与训练稳定性技术

#学习 #语言模型 #人工智能 +1

【DataWhale组队学习】DIY-LLM Task1分词器

本文深入探讨了分词器（Tokenizer）在大型语言模型中的关键作用与技术实现。文章首先解释了分词器作为文本预处理组件的重要性，它能决定模型处理文本的基本粒度。随后详细介绍了分词器的整体训练流程，包括数据预处理、多语言语料处理、预分词等关键步骤。重点分析了字符级、字节级、词级和BPE四种主流分词算法的原理与适用场景，其中BPE因其平衡性成为当前主流方法。文章还深入剖析了DeepSeek分词器中字节

#人工智能

深度学习笔记：Softmax回归与线性回归的最大似然估计的理解

本文从概率统计角度揭示了机器学习中损失函数的本质联系：(1) 最小化交叉熵损失等价于最大似然估计，其梯度即为预测概率与真实标签的差值；(2) 交叉熵最小化也等同于最小化KL散度，衡量真实分布与预测分布的差异；(3) 在高斯噪声假设下，最小化均方误差等价于线性模型的最大似然估计。这些结论表明，常见的损失函数设计背后都有坚实的概率统计基础，不同视角（概率、优化、统计）最终导向相同的优化目标。

#深度学习 #人工智能 #机器学习

到底了