Al-Mark 个人主页

@weixin_51236462

Al-Mark

2023-02-11 16:28:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理流程

大语言模型生成文本遵循自回归（Autoregressive）规则每个新 token 只依赖于 “它之前的所有 token” 组成的序列，且生成位置永远是 “当前序列的末尾”。输入 prompt 为（3 个 token），第一个输出 token 是序列的末尾位置（第 3 位）的上下文表示决定的；生成第一个输出 tokent4后，第二个输出 token 由新序列的末尾位置（第 4 位）的上下文表示决定

#深度学习 #人工智能 #机器学习

llama.cpp跑大模型命令选项以及如何调用GPU算力

-ctx-size：设置上下文窗口--n-gpu-layers：设置调用GPU的层数（但是不知道为什么GPU利用率为0，虽然占用了GPU内存）

大模型推理流程

#深度学习 #人工智能 #机器学习

AVX和AMX的计算逻辑

AVX向量级并行计算的逻辑：512位寄存器可以存32个BF16数据，两个BF16数相乘最大范围需要32位表示，为保持精度，每个结果需要用32位存储，512位寄存器只能保存16个BF32数据，每个数据的诞生是并行计算得到的，并行度为16，每个数据=相邻的两对BF16相乘的和。

#人工智能 #算法

到底了