Olafur_zbj 个人主页

@u011808788

Olafur_zbj

2024-03-13 17:48:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【AI】LLM的硬件视角 -- 分块

在Prefill阶段，即便是处理一个Prompt，其产生的 Q 、 K 、 V 矩阵（例如 seq_len x d_model ）也常常因为太大而无法一次性放入片上内存（SRAM），更不用说一次性被计算单元处理了。因此，分块（Tiling / Blocking）是解决这个问题的核心技术。我们来详细拆解一下“一个大矩阵如何被拆分”以及“指令集该如何设计”。

#人工智能

【AI】LLM的芯片硬件视角

内存带宽是王道 : 对于追求低延迟、高吞吐量的LLM推理芯片（特别是用于聊天、实时翻译等场景），提升内存带宽（如采用更先进的HBM、增加带宽）比单纯堆砌计算单元（如MAC阵列）可能带来更显著的性能收益。大容量内存是基础 : 模型本身和不断增长的KV Cache都需要巨大的内存。设计时必须考虑如何支持足够大且快速的内存，否则会严重限制模型能处理的上下文长度。

#人工智能

【AI】d_model 隐藏层维度

数据总线宽度 : d_model 直接决定了模型内部处理的基本数据单元的大小。在你的芯片设计中，这意味着从内存（HBM）到计算单元（MAC阵列）的数据通路的宽度需要高效地处理 d_model 维的向量。矩阵尺寸 : d_model 是决定权重矩阵大小的核心因素。Wq, Wk, Wv, Wo 等矩阵都是 d_model x d_model 级别，FFN层的权重矩阵是 d_model x (4*d_m

#人工智能

【AI】为什么没有encoder，LLM也能理解上下文？

详细的解释如下：让我们回到两种架构处理输入的根本区别上：当任务的复杂性体现在**“输入和输出之间存在高度的结构性差异，需要对输入进行全局重构才能开始生成”**时，Encoder的优势就显现出来了。以下是一些具体的例子：高质量的机器翻译：长文档的抽象式摘要 (Abstractive Summarization) ：代码转换 (Code Transpilation) ：你可能会问，既然Encoder

#人工智能

【AI】LLM三种架构对比

之所以会形成这三个阵营，是因为研究者们最初是针对不同类型的问题来设计模型的。但后来大家发现， Decoder-Only 架构通过其极其强大的“文字接龙”能力，意外地能够“模拟”其他两种架构的任务，并且在超大规模下表现出了惊人的通用性，因此成为了当今超大规模语言模型（LLM）的绝对主流。

#人工智能

【AI】矩阵、向量与乘法

矩阵 x 矩阵：可以看作是多个独立的矩阵 x 向量操作的集合。矩阵 x 向量：可以看作是多个独立的行向量 · 列向量 (点积) 操作的集合。矩阵 x 向量 (另一视角)：也可以看作是矩阵的列向量的线性组合。所以，最复杂的矩阵乘法，其最底层的基石就是向量乘法（主要是点积）。现代计算库（如BLAS）和硬件（如GPU）就是将上层复杂的运算，层层分解成海量的、简单的、可并行处理的向量运

#人工智能 #矩阵 #线性代数

【AI】Position Encoding -- 位置编码

词嵌入矩阵：形状为 [6, 768] ，包含了每个 Token 的语义。位置编码矩阵：形状为 [6, 768] ，我们通过上述公式为 pos=0 到 pos=5 计算出了 6 个 768 维的位置向量，并将它们堆叠起来。操作：将这两个矩阵进行逐元素相加 (Element-wise Addition)。最终产物：我们得到了一个最终的输入矩阵，形状仍然是 [6, 768]。它是什么 (

#人工智能

【AI】Embedding -- 词嵌入

现在我们有了一串数字 [8, 121, 33, …] ，但这串数字本身没有任何意义。数字 8 和数字 121 之间没有任何关联。我们需要将每个数字 ID 转换成一个高维向量（Vector），这个向量能够捕捉到 Token 的语义信息。至此，词嵌入完成。我们把一串无意义的数字 ID，转换成了一个包含初步语义信息的向量矩阵。

#人工智能 #机器学习

【AI】Tokenizaton -- 分词

解决了 OOV 问题：任何新词、拼写错误、甚至无意义的字符串，最终都可以被切分成基础的字符单元，模型总能处理，永远不会遇到“不认识的词”。平衡了效率与语义：常见词被保留为完整单元，保留了语义，减少了序列长度；生僻词被切分成子词或字符，保证了模型的泛化能力。词汇表大小可控：我们可以预先设定词汇表的大小，这是一个非常重要的工程考量。所以，Tokenization 是一个纯粹的、基于统计和规则的“

#人工智能

【AI】Embedding：绘制AI的语义地图——从单词到万物的数字坐标革命

定义：Embedding 是一种将高维、稀疏、离散的符号映射到低维、密集、连续的向量空间的技术。一个Embedding向量就像一段DNA，编码了原始数据最核心的特征和信息。从稀疏到稠密，高维到低维的艺术早期用One-Hot编码来表示一个词，就像用一根极长的针在宇宙中定位一个点——大部分空间都是空的（稀疏），效率极低。而Embedding则像一次“降维压缩”。它将一个可能百万维的One-Hot向量，

#人工智能

共 26 条

请选择