
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型推理流程
大语言模型生成文本遵循自回归(Autoregressive)规则每个新 token 只依赖于 “它之前的所有 token” 组成的序列,且生成位置永远是 “当前序列的末尾”。输入 prompt 为(3 个 token),第一个输出 token 是序列的末尾位置(第 3 位)的上下文表示决定的;生成第一个输出 tokent4后,第二个输出 token 由新序列的末尾位置(第 4 位)的上下文表示决定
llama.cpp跑大模型命令选项以及如何调用GPU算力
-ctx-size:设置上下文窗口--n-gpu-layers:设置调用GPU的层数(但是不知道为什么GPU利用率为0,虽然占用了GPU内存)
大模型推理流程
大语言模型生成文本遵循自回归(Autoregressive)规则每个新 token 只依赖于 “它之前的所有 token” 组成的序列,且生成位置永远是 “当前序列的末尾”。输入 prompt 为(3 个 token),第一个输出 token 是序列的末尾位置(第 3 位)的上下文表示决定的;生成第一个输出 tokent4后,第二个输出 token 由新序列的末尾位置(第 4 位)的上下文表示决定
AVX和AMX的计算逻辑
AVX向量级并行计算的逻辑:512位寄存器可以存32个BF16数据,两个BF16数相乘最大范围需要32位表示,为保持精度,每个结果需要用32位存储,512位寄存器只能保存16个BF32数据,每个数据的诞生是并行计算得到的,并行度为16,每个数据=相邻的两对BF16相乘的和。
到底了







