Token炼金师个人主页

@tsh2005974tsh

Token炼金师

AI 不止于想象，代码让一切发生

武汉

tsh2005974@126.com

2023-03-23 14:10:02 加入 DevPress

简介

深耕IT领域二十余载的资深技术专家与复合型管理者，具备从底层IT架构到前沿AI应用的全栈技术视野与实战能力。在IT工程与系统架构方面，精通领域驱动设计与微服务架构，能精准把控高并发、高性能系统底层逻辑。熟练掌握PHP、Java、C#、Python、Golang等后端语言及Vue、React等前端框架。在多端与数据可视化生态中，精通UniApp、React Native、Flutter及微信小程序开发，具备WebGIS专项能力，并深入掌握Three.js、Cesium及Unreal 5引擎等数字孪生技术。拥有从0到1搭建复杂企业级系统、完成高并发架构设计与多端落地实施的卓越统筹能力。在人工智能领域，构建了全面技术闭环。深入理解Transformer架构与生成式大模型底层原理，精通大模型微调（SFT、DPO、LoRA）、部署优化（vLLM）及RAG架构搭建，熟练运用LangChain、Coze等平台进行智能体（Agent）开发。凭借横跨传统IT、大数据、数字孪生与AI原生应用的全面技能，能游刃有余地驾驭复杂技术挑战，将前沿AI精准融入企业业务场景，以技术创新驱动业务增长。

擅长的技术栈

人工智能前端后端数据库大数据

可提供的服务

一. 企业级AI应用与智能体（Agent）定制开发；二、高并发IT系统架构设计与技术攻关；三、多端应用开发与WebGIS定制服务；四、大数据开发与数字孪生系统构建；五、AI技术培训与前沿技术布道（企业AI转型技术培训；AI讲师与知识分享；售前高级技术咨询）；

内存利用率飙升500%！vLLM的PagedAttention如何用“虚拟内存”思想颠覆LLM推理？

PagedAttention 是 vLLM 的核心技术，通过将 KV Cache 分页管理（类似操作系统虚拟内存），解决了传统 KV Cache 的内存碎片和内存浪费问题。本文从操作系统虚拟内存的类比出发，分析 PagedAttention 的页表、地址翻译、内存分配和回收机制，以及前缀共享和零拷贝优化的实现细节。

#人工智能 #vLLM

显存博弈论：大模型推理内存消耗深度拆解

本文档系统拆解了大语言模型推理时的显存消耗原理，覆盖四大核心组件：模型参数显存 — 按精度 (FP32→INT4) 和架构分解，含多卡分片公式KV Cache — 从 MHA/GQA/MQA 对比到多轮对话增长模型，推理长序列时的显存瓶颈激活值 (Activations) — 逐层中间变量显存估算，FlashAttention 消除 BHS² 项的效果Batch Size 与并发用户 — 并发 ≠

#人工智能

大模型权重文件全指南：从格式选择到优化实战

本文系统性地介绍了深度学习大模型权重文件的各种格式及其特点。主要内容包括：权重文件基础概念：解释了模型权重包含的参数类型（权重矩阵、偏置、归一化参数等）、典型的数据结构，以及不同精度（FP32、FP16、INT8等）对模型大小和性能的影响。常见权重文件格式： PyTorch格式（.pt/.pth/.bin）：原生格式，支持完整模型状态但存在安全风险 SafeTensors格式（.safeten

#人工智能

大模型推理超参数原理详解

本文深入解析了LLM生成文本时的三个关键采样参数——Temperature、Top-k和Top-p的作用机制及其相互关系。文章从底层公式出发，通过流程图和数学分析揭示了这些参数如何影响softmax概率分布：Temperature在softmax前对logits进行缩放，控制输出的确定性；Top-k和Top-p则在softmax后进行截断，分别通过固定数量和动态概率阈值来筛选候选词。研究指出，这些

#人工智能

大模型训练超参数：从Loss曲面到收敛策略的底层逻辑

超参数并非经验玄学，而是直接塑造Loss曲面形态与优化器行为的可控变量。本文从梯度更新公式出发，剖析学习率、Batch Size、Warmup、Weight Decay等核心超参数对训练动力学的影响机制，结合LLM训练实践给出调参的定量分析框架。

#人工智能 #机器学习 #自然语言处理

边缘与端侧层：大模型塞不下跑不动的三重困境

端侧算力弱大模型跑不动、压缩后长尾能力骤降、离线场景能力归零、端侧发热降频性能断崖。本文从某实时翻译App真实复盘切入，剖析端侧推理性能、模型压缩失真、离线兜底、发热降级四个痛点，给出端云协同动态切分、关键能力保底蒸馏+混合精度、轻量兜底+优雅降级、热状态检测主动降级的量化方案。

#人工智能

模型开发层：微调越调越废的四个工程陷阱

企业微调大模型常陷入"调了不如不调"的怪圈。本文从某智能客服项目真实复盘切入，剖析幻觉、领域适配、对齐税、灾难性遗忘四个痛点，给出置信度约束、LoRA分层、混合数据+KL正则、EWC弹性权重的量化方案。

#人工智能

系统稳定性层：大模型调用脆雪崩快的三个防护缺口

上游API抖动业务卡死3小时、P99延迟2秒SLA违约、回滚漏切三元组效果更差。本文从某Agent真实雪崩事件切入，剖析调用不可降级、长尾延迟、灰度回滚三个痛点，给出多源兜底+熔断、请求分级+KV预热、统计显著性+原子回滚的量化方案。

#人工智能

范式跃迁：从标注囚徒到自监督信徒 —— 大模型时代的机器学习重写

大模型把机器学习从"标注驱动"推向"自监督+Scaling"范式。本文从自监督目标选择、过参数化边界、偏差方差分解、Few-shot 统计基础四个切口，给出 LLM 时代机器学习原理的工程化映射与企业落地决策框架。

#机器学习 #人工智能

数学的脊梁：撑起大模型的四根骨架 —— 线性代数、概率统计、优化理论、信息论

大模型的工程化落地，底层是对线性代数、概率统计、优化理论、信息论四块数学的精确驾驭。本文从参数量计算、交叉熵物理意义、AdamW 与 WSD 调度器、信息瓶颈四个切口切入，给出源码级实现与企业级踩坑复盘。

#线性代数 #人工智能

共 78 条

请选择