登录社区云,与社区用户共同成长
邀请您加入社区
同时,FlagGems 新增 6 大领域算子库——FlagDNN、FlagBlas、FlagSparse、FlagFFT、FlagTensor、FlagAudio,覆盖科学计算与信号处理场景,共计 102 个领域算子,从"大模型专用"走向全领域覆盖。厂商目录放置后由插件自动发现加载,vLLM-Plugin-FL、SGLang-Plugin-FL、Megatron-LM-FL、Transformer
测试先于选型:不要只看 Benchmark 跑分,一定要拿你们自己真实业务的 Prompt 分布去压测。短文本和长文本的配比,直接决定了最终的吞吐表现。监控指标抓重点:别光盯着 QPS,核心盯住GPU 显存占用率KV Cache 命中率P99 延迟。尤其是 P99,业务方对卡顿极其敏感。部署隔离:长短文本请求务必分开部署到不同的推理集群,千万不要把它们塞进同一个框架实例中,否则调度器会让你痛不欲生
版本锁定:DTK版本、PyTorch版本、flash_attn版本、vLLM版本必须严格匹配,建议用官方文档推荐的组合。推理优先:目前海光DCU在推理场景最成熟,训练场景建议从小规模起步验证。迁移成本:如果你的代码只用PyTorch标准API,迁移成本很低。如果用到了cuDNN/cuBLAS等底层库,需要替换为海光对应实现。关注更新:海光的软件栈迭代很快,建议关注光合开发者社区的版本更新公告。
前往项目官网免费下载:[https://ar.openeuler.org/ar/](https://ar.openeuler.org/ar/?utm_source=csdn_blog)在人工智能技术快速发展的今天,如何快速部署和运行AI应用成为开发者和企业面临的重要挑战。openEuler AI镜像全家桶为您提供了完整的解决方案,特别是针对大语言模型(LLM)、PyTorch和MindSpor
这篇文章介绍了大模型推理中的两种张量并行切分方法:词表切分(vocab sharding)和注意力头切分(head sharding)。主要内容包括: 词表切分:将大型词表(如15万词)按词维度切分到不同GPU卡,每卡只存储部分词表。文章详细解释了VocabParallelEmbedding的实现,包括局部索引转换、掩码处理和all_reduce求和机制。 语言模型头切分:ParallelLMHe
前往项目官网免费下载:[https://ar.openeuler.org/ar/](https://ar.openeuler.org/ar/?utm_source=csdn_blog)openYuanrong数据系统是一款以内存为中心、近计算的分布式异构多级缓存系统,专为AI训推、Agent、大数据等分布式应用打造。通过与vLLM集成,它能为GLM-5等大模型提供高性能的KV缓存存储与请求间复
在LLM应用开发中,Transformers是底层基础库,用于模型微调和研究;vLLM是生产级推理引擎,优化并发性能;Ollama简化本地模型运行,适合开发调试;LlamaIndex专注数据连接,构建RAG系统。典型开发链路包括:用LlamaIndex处理数据,Ollama本地测试,Transformers微调,最终通过vLLM部署。选择工具时,建议本地开发用Ollama+LlamaIndex,生
LLM 推理优化的核心是减少显存带宽瓶颈和提高 GPU 利用率。PagedAttention 减少显存碎片,连续批处理提高 GPU 利用率,量化用精度换速度,Speculative Decoding 用小模型加速大模型。按 ROI 排序:量化 > 连续批处理 > KV Cache 优化 > Speculative Decoding。所有优化手段都必须在业务数据集上验证精度损失,通用指标(如 per
DeepSeek 本地部署完全方案,覆盖 Ollama 一键部署、vLLM 高性能推理、llama.cpp CPU/GPU 混合推理三种路径,详解硬件选型、量化策略、Open WebUI 界面搭建、多卡并行与显存优化,附常见问题排查与选型决策树。
摘要:很多人理解 LLM 推理优化时,第一反应是量化、算子融合、TensorRT-LLM 或 vLLM,但真正把线上吞吐、延迟和成本拉开差距的,往往不是某一个单点优化,而是一整套“请求如何进入 GPU、如何排队、如何共享显存、如何被分批执行”的调度系统。本文从工程视角系统拆解 LLM Serving 中最核心的一层:Continuous Batching、Prefill/Decode 分阶段执行、