logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型高并发实战:计算与优化全解析

摘要:大型语言模型(LLMs)在生产环境面临高并发和高吞吐量挑战。本文探讨了量化计算资源需求的方法,包括显存估算(模型参数+KVCache)和吞吐量预测(TTFT/TPOT)。重点介绍了三大优化策略:动态批处理消除计算浪费,PagedAttention管理KVCache提升并发能力,以及量化技术减少显存占用。这些工程实践能显著提升GPU利用率,帮助构建高效的LLM推理服务。通过精确容量规划和系统优

#大数据#人工智能#算法
大模型高并发实战:计算与优化全解析

摘要:大型语言模型(LLMs)在生产环境面临高并发和高吞吐量挑战。本文探讨了量化计算资源需求的方法,包括显存估算(模型参数+KVCache)和吞吐量预测(TTFT/TPOT)。重点介绍了三大优化策略:动态批处理消除计算浪费,PagedAttention管理KVCache提升并发能力,以及量化技术减少显存占用。这些工程实践能显著提升GPU利用率,帮助构建高效的LLM推理服务。通过精确容量规划和系统优

#大数据#人工智能#算法
Prompt、MCP、Agent:智能LLM应用三大核心

摘要: 大型语言模型(LLM)的智能应用构建依赖于三大核心技术:Prompt(提示)作为基础交互接口,指导模型生成特定输出;MCP(元认知提示)通过自我反思和任务分解,提升LLM的推理与修正能力;Agent(智能体)整合LLM、记忆模块和工具,实现自主规划与任务执行。三者形成递进关系:Prompt是初始指令,MCP优化Agent的决策逻辑,Agent最终落地为可执行的智能系统。这一协作体系推动LL

#人工智能#RAG#MCP
Prompt、MCP、Agent:智能LLM应用三大核心

摘要: 大型语言模型(LLM)的智能应用构建依赖于三大核心技术:Prompt(提示)作为基础交互接口,指导模型生成特定输出;MCP(元认知提示)通过自我反思和任务分解,提升LLM的推理与修正能力;Agent(智能体)整合LLM、记忆模块和工具,实现自主规划与任务执行。三者形成递进关系:Prompt是初始指令,MCP优化Agent的决策逻辑,Agent最终落地为可执行的智能系统。这一协作体系推动LL

#人工智能#RAG#MCP
关系型与非关系型数据库终极对决

关系型数据库(RDB)与非关系型数据库(NoSQL)是现代数据存储的两大核心选择。RDB以严格的表结构和ACID事务为特点,适合金融系统等高一致性场景;NoSQL则提供灵活的数据模型和水平扩展能力,适用于高并发、大数据和AI应用。典型RDB包括MySQL、PostgreSQL,而NoSQL涵盖MongoDB、Redis等多种类型。实际应用中常采用多模型持久化策略,根据业务需求组合使用不同数据库。理

#数据库#人工智能
现代检索三剑客:Milvus、ES与MongoDB的完美协同

现代检索架构三剑客:Milvus、Elasticsearch与MongoDB的分工协作 在构建智能检索系统时,三种专业数据库各司其职: Milvus专攻向量检索,通过ANN算法实现高维向量的相似性搜索,适用于AI语义召回; Elasticsearch擅长全文检索,基于倒排索引支持关键词匹配和复杂过滤; MongoDB作为文档存储,负责原始数据的持久化管理。 三者协同可构建强大混合检索系统:Milv

#数据库
解码大模型:Temperature与Top-p实战指南

摘要:本文深入解析了控制大模型创造力的两大参数——temperature和top-p。temperature通过调节概率分布的"温度"影响文本随机性:低温(0.1-0.3)生成确定性内容,中温(0.5-0.7)平衡创意与逻辑,高温(0.8-1.0)增强多样性但可能降低质量。top-p则采用核采样技术,动态选择核心概率词集进行采样。文章建议根据应用场景选择参数:创作型写作宜用高温

#人工智能#机器学习#算法
解码大模型:Temperature与Top-p实战指南

摘要:本文深入解析了控制大模型创造力的两大参数——temperature和top-p。temperature通过调节概率分布的"温度"影响文本随机性:低温(0.1-0.3)生成确定性内容,中温(0.5-0.7)平衡创意与逻辑,高温(0.8-1.0)增强多样性但可能降低质量。top-p则采用核采样技术,动态选择核心概率词集进行采样。文章建议根据应用场景选择参数:创作型写作宜用高温

#人工智能#机器学习#算法
深入解析KVCache:大模型推理加速利器

摘要: KVCache(Key-Value Cache)是大语言模型(LLM)推理加速的关键技术,通过缓存历史token的Key和Value向量,避免重复计算自注意力,显著降低计算复杂度(从O(L²)到O(L))。其核心原理是在自回归生成时复用缓存的K/V向量,仅计算当前token的新向量。虽然KVCache大幅提升推理速度,但会占用显存(与模型层数、头数、序列长度成正比)。优化方案包括多查询注意

#深度学习#自然语言处理#人工智能
深入解析KVCache:大模型推理加速利器

摘要: KVCache(Key-Value Cache)是大语言模型(LLM)推理加速的关键技术,通过缓存历史token的Key和Value向量,避免重复计算自注意力,显著降低计算复杂度(从O(L²)到O(L))。其核心原理是在自回归生成时复用缓存的K/V向量,仅计算当前token的新向量。虽然KVCache大幅提升推理速度,但会占用显存(与模型层数、头数、序列长度成正比)。优化方案包括多查询注意

#深度学习#自然语言处理#人工智能
    共 14 条
  • 1
  • 2
  • 请选择