
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
系统的输出仅取决于预先的设定或当前的输入,而不依赖于系统的反馈结果。
系统的输出仅取决于预先的设定或当前的输入,而不依赖于系统的反馈结果。
它挑战了西方哲学长久以来“重精神、轻肉体”的传统。
在大模型时代,算法与系统的边界日益模糊。想要复现 DeepMind 或 OpenAI 的工作,光会设计 Loss Function 已经不够了,必须深入理解底层的算力调度。本文开始从零手写 CUDA Runtime API 的过程。要求在不依赖高级框架的前提下,直接通过 C++ 和 CUDA Driver API 实现设备管理、内存分配(Pinned Memory)以及异步流(Stream)调度。
把这样一个“死”的模块,挂在一个完全可微的、拥有万亿参数的神经网络(法拉利)前面,像极了在法拉利前面套了一辆马车。但是,当我们回过头看模型的第一步——Tokenizer(分词器)时,却发现它像是一个来自上个世纪的遗留物。虽然去掉了 Tokenizer,但它为了处理字符级输入,Transformer 的 Encoder 变得极其沉重,推理速度慢得让人心碎,根本无法在大规模 LLM 上落地。现有的模型
Pre-Norm(为了稳) +RMSNorm(为了快)。SwiGLU。ROPE(旋转位置编码)。(约 2.67倍)。使用GQA(分组查询) 来加速推理。多语言模型选100k+。用QK Norm或。不要加输入 (Input): "The cat sat on the"v[ 1. Tokenizer (分词器) ]| 操作:查表| 输出:Token IDs [101, 856, 221, ...]v[
这一章节会非常长,我们不仅要会写代码,还要把所有知识点吃透,不满足简单的定理,以及我会问一些及其深刻的问题,作为一个小点收尾,我敢打包票的事,你用一周或者两周时间吃透这篇博客,你的能力会有质的飞跃。

这周开始,我将会开始一场苏格拉底式的大模型(LLM)构建教学,教大家学会如何构建GPT,Deepseek这样的大模型(当然是缩水版)
有很多小伙伴在后台私信我说对于代码很模糊,看不懂我发的博客代码,一些大模型功能的实现觉得很困难,代码能力的薄弱确实让我们在热爱的领域进步举步维艰,所以我准备出几期基础的算法教学,帮助大家学习。当然如果你的目标是去大厂工作,这个可能只能做个基础,最重要还是得刷刷力扣,虽然算法在AI时代弱化了很多,但是我们也要有个基本的概念。如果你的目标和我一样,不是为了工作,单纯对这个方向感兴趣,作为一个爱好,那么

当我们谈论人工智能时,我们往往过度沉迷于“大脑”的算力与参数,却忽略了容纳这个大脑的“容器”。在这一节,我们要明白:仅凭语言模型(LLM),哪怕参数量再大,也无法触及“完整的智能”。








