logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM框架高效原因分析

vLLM框架以其高效的模型推理性能著称,主要依赖于PagedAttention、连续批处理、内存与计算优化、分布式推理与并行化以及高效缓存管理等核心技术。PagedAttention通过动态显存管理显著提升显存利用率,连续批处理则通过动态调整批次最大化GPU利用率。内存与计算优化包括融合操作和量化技术,减少数据传输和计算开销。分布式推理与并行化通过模型、数据和流水线并行提升处理能力。高效缓存管理则

大模型相关数据格式及训练器接收的数据格式

需要使用下方的代码,转换为。

大模型中常见的精度类型及区别​

• 指数位:BF16的指数位(8位)与FP32对齐,数值范围达±3.4×10³⁸,远超FP16的±65504。实际应用中需根据硬件支持、任务需求和模型规模综合权衡。• 尾数位:FP16尾数位(10位)比BF16(7位)多,精度更高,适合小数值运算(如图像处理),但对大模型训练中的梯度爆炸敏感。• BF16:专为大规模模型设计(如GPT、BERT),在TPU和NVIDIA A100等硬件上优化,支持

文章图片
#人工智能#深度学习#算法
大模型下载到本地

【代码】大模型下载到本地。

大模型常用位置编码方式

深度学习中的位置编码用于为模型提供序列中元素的位置信息。常见的编码方式包括:1) 固定位置编码(Sinusoidal Positional Encoding);2) 可学习位置编码(Learnable Positional Encoding);3) 相对位置编码(Relative Positional Encoding);4) 旋转位置编码

#python
大模型常用位置编码方式

深度学习中的位置编码用于为模型提供序列中元素的位置信息。常见的编码方式包括:1) 固定位置编码(Sinusoidal Positional Encoding);2) 可学习位置编码(Learnable Positional Encoding);3) 相对位置编码(Relative Positional Encoding);4) 旋转位置编码

#python
RAG检索结果评估MRR与NDCG计算

MRR@10和NDCG@5是推荐系统中常用的评估指标,分别用于衡量首个相关结果的排名质量和前几个结果的排序质量。MRR@10通过计算首个相关项排名的倒数来评估系统性能,适用于强调首条相关结果的场景。NDCG@5则综合考虑相关性和位置衰减,适用于需要精细排序优化的场景。两者的计算方式不同,MRR@10简单直观,而NDCG@5支持多级相关性,但计算复杂度较高。在实际应用中,可以根据具体需求选择合适的指

文章图片
#RAG
使用PEFT库将原始模型与LoRA权重合并

本文介绍了如何使用PEFT库将原始模型与LoRA权重合并。首先,加载基础模型和tokenizer,确保配置与LoRA训练时一致。接着,加载LoRA适配器,并通过merge_and_unload()方法将LoRA权重与基础模型合并,同时移除LoRA层。最后,将合并后的模型保存为标准HuggingFace格式,便于后续推理。代码示例展示了完整的合并与保存流程,用户只需提供基础模型路径、LoRA权重路径

文章图片
#python
vllm启动模型的四种方式

本文介绍了如何使用 vllm 库在单机单卡环境下部署和运行模型。通过命令行工具 vllm serve,用户可以指定模型名称或本地路径,并设置相关参数来启动服务。默认情况下,模型会从 Hugging Face 下载,数据类型为 auto。文章还提供了官方参数介绍链接,详细列出了 vllm serve 命令的可选参数,包括主机名、端口号、SSL 配置、模型加载格式、数据类型、并行计算设置等。这些参数允

#python
Could not load dynamic library ‘cudart64_101.dll‘; dlerror: cudart64_101.dll not found

Could not load dynamic library 'cudart64_101.dll'; dlerror: cudart64_101.dll not found

#windows#深度学习#tensorflow
    共 19 条
  • 1
  • 2
  • 请选择