logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型主流激活函数解析:ReLU/GELU/SwiGLU原理差异,拆解FFN前向逻辑.188

本文深入解析了大语言模型中激活函数的核心作用与演进历程。首先指出激活函数是决定模型深度、长文本效果和训练稳定性的关键组件,对比了ReLU、GELU、GatedGELU和SwiGLU四代主流激活方案的特性差异。重点分析了ChatGLM2的GatedGELU和ChatGLM3/Qwen采用的SwiGLU架构,通过代码示例展示其双支路门控机制(gate支路控制权重,value支路传递特征)的工作原理。S

文章图片
大模型参数规模拆解:十亿百亿千亿模型能力差异,结构配比决定AI智能上限.187

文章摘要:本文探讨了大模型参数规模与智能水平的关系,指出参数数量并非决定模型能力的唯一因素。通过分析十亿、百亿和千亿级模型的特点,揭示了不同规模模型的能力天花板:十亿级模型适合轻量化部署和简单任务,百亿级模型在性价比和通用性上表现最佳,千亿级模型虽知识容量大但部署成本极高。文章强调模型宽度与深度的合理配比比单纯增加参数更重要,并提供了模型选型、训练和部署的实践建议,帮助读者避免盲目追求大参数模型的

文章图片
FlashAttention、PagedAttention两代注意力算法,改写大模型推理生态详解.186

本文深入解析了大模型注意力机制的两大优化技术:FlashAttention和PagedAttention。原生Transformer注意力存在O(n²)复杂度问题,导致长文本处理时显存占用和计算量暴增。FlashAttention通过SRAM分片计算,将显存占用从平方级降为线性级,显著提升长文本处理效率。PagedAttention则借鉴操作系统分页机制,解决多会话并发时的显存碎片问题,使KV缓存

文章图片
FlashAttention、PagedAttention两代注意力算法,改写大模型推理生态详解.186

本文深入解析了大模型注意力机制的两大优化技术:FlashAttention和PagedAttention。原生Transformer注意力存在O(n²)复杂度问题,导致长文本处理时显存占用和计算量暴增。FlashAttention通过SRAM分片计算,将显存占用从平方级降为线性级,显著提升长文本处理效率。PagedAttention则借鉴操作系统分页机制,解决多会话并发时的显存碎片问题,使KV缓存

文章图片
词嵌入Embedding:Token离散转连续向量规则、RoPE特性、微调适配实践.185

本文深入解析了大模型中的词嵌入(Embedding)技术,从基础概念到高级应用全面剖析。文章首先对比了Embedding与One-Hot编码的本质差异,通过可视化展示Embedding如何将离散Token转换为高维连续向量并保留语义关系。随后详细阐述了词向量在语义空间中的分布规律,包括近义词聚集、反义词远离等特性。重点讲解了RoPE旋转位置编码的原理及其重要性,指出随意修改会导致语义崩塌。文章还探

文章图片
大模型幻觉本质:源于Transformer架构天生固有缺陷 + RAG根治方案参数调优.184

本文深入探讨了大模型幻觉问题的本质与解决方案。指出幻觉并非程序故障,而是Transformer架构的固有缺陷,表现为模型擅长预测文本通顺性而非事实准确性。文章系统分析了幻觉的三大类型(事实型、关联型、引用型)及其在专业领域的危害性,并从注意力机制、知识分布、长上下文处理等维度剖析了底层成因。针对性地提出了四层解决方案:1)RAG架构通过外部知识库约束输出;2)采样参数调优控制生成随机性;3)RLH

文章图片
VLLM大模型高效加载原理解析PagedAttention核心机制、推理流程、性能优化.182

VLLM框架通过创新性的PagedAttention技术,解决了大模型推理中的显存碎片化和低效问题。该技术借鉴操作系统虚拟内存分页思想,将KV缓存切分为固定大小的Block页面统一管理,实现显存的高效复用和零碎片化。相比传统Transformer推理方式,VLLM显著提升了显存利用率(从30%提升至85%以上)和并发能力(提升10-20倍吞吐量)。其核心优势包括:支持ContinuousBatch

文章图片
VLLM大模型高效加载原理解析PagedAttention核心机制、推理流程、性能优化.182

VLLM框架通过创新性的PagedAttention技术,解决了大模型推理中的显存碎片化和低效问题。该技术借鉴操作系统虚拟内存分页思想,将KV缓存切分为固定大小的Block页面统一管理,实现显存的高效复用和零碎片化。相比传统Transformer推理方式,VLLM显著提升了显存利用率(从30%提升至85%以上)和并发能力(提升10-20倍吞吐量)。其核心优势包括:支持ContinuousBatch

文章图片
VLLM大模型高效加载原理解析PagedAttention核心机制、推理流程、性能优化.182

VLLM框架通过创新性的PagedAttention技术,解决了大模型推理中的显存碎片化和低效问题。该技术借鉴操作系统虚拟内存分页思想,将KV缓存切分为固定大小的Block页面统一管理,实现显存的高效复用和零碎片化。相比传统Transformer推理方式,VLLM显著提升了显存利用率(从30%提升至85%以上)和并发能力(提升10-20倍吞吐量)。其核心优势包括:支持ContinuousBatch

文章图片
本地大模型常见异常全解:显存溢出、推理慢、驱动报错、环境冲突调试指南.181

本地大模型部署指南:核心要点与避坑策略 本文系统介绍了本地大模型部署的核心概念、执行流程和常见问题解决方案。本地部署指将开源大模型下载至本地设备运行,具有数据隐私性强、无调用限制等优势。部署需关注三大硬件要素:GPU显存决定模型大小、CPU辅助运算、内存作为缓存空间。软件环境需搭建操作系统、显卡驱动、CUDA平台等完整生态链。 标准部署流程包含九大步骤:硬件评估→系统优化→驱动安装→环境配置→虚拟

文章图片
    共 178 条
  • 1
  • 2
  • 3
  • 18
  • 请选择