logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NF4量化算法的PyTorch实现

为了方便理解NF4算法的实现,这里用PyTorch实现了一版可以和CUDA NF4精度对齐的量化和反量化函数,并使用llama-3.1-8b模型进行测试,可以做到和CUDA实现的算子精度基本对齐(仅反量化存在少许误差),并对模型输出进行测试,64个tokens和CUDA实现完全一致。不过PyTorch的实现存在一定的性能损失,8B模型的量化过程从CUDA实现的3s增加到PyTorch实现的10s;

文章图片
#算法#pytorch#人工智能
【测试】8bit和4bit量化对模型在MMLU数据集上准确率的影响

下面是改变其中某个参数后在 MMLU 数据集上的准确率,可以看出即使是 4bit 对准确率影响都没有很大,首 Token 性能还可以接近原精度,还节省了大量的空间。ms,最后的测试结果还算比较接近官方的结果,以此作为 baseline 和量化后的模型权重对比推理下游任务准确率的损失情况。),4bit 量化包含两种 4bit 的数据类型 FP4 和 NF4,以及。Mistral-7B 是一个很强的

#深度学习#自然语言处理#人工智能
[AI][vLLM] max_num_seqs 参数详解

限制并发: 控制同时处理的请求数量分配内存: 决定各种缓冲区的分配大小影响性能: 直接影响吞吐量、延迟和 GPU 利用率与 DP 相关: 在数据并行场景下,总并发能力 =合理设置需要在内存占用并发能力和性能指标之间找到平衡点。

#人工智能#深度学习#python
【向量数据库】向量数据库的构建和检索

使用sentence-transformers库,将文本编码为向量,构建向量数据库并使用faiss进行向量检索

文章图片
#深度学习#自然语言处理#faiss +1
到底了