logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

华为盘古大模型开源引爆,推理方案+基础代码全揭秘,业界惊呆了!

华为开源盘古大模型家族,包括70亿参数稠密模型和720亿参数MoGE混合专家模型,并公布基于昇腾的推理优化技术。盘古ProMoE72B采用创新分组专家架构实现跨设备负载均衡,在昇腾800IA2上达1148tokens/s推理速度。华为同步开源FlashComm通信优化、FusionSpec投机推理等核心技术,通过软硬协同将推理性能提升6-8倍。7B模型采用"快慢思考"双模设计,

文章图片
#人工智能#产品经理#AI
大模型推理一致性难题终结者:vLLM批量不变推理功能深度解析!

vLLM推出的批量不变推理功能解决了大模型推理中相同输入在不同批量大小下产生不同结果的关键问题。通过设置VLLM_BATCH_INVARIANT=1,确保输出完全一致,提升模型可重现性。该功能通过自定义算子、执行重写和后端调整三部分技术实现,虽可能有性能开销,但为生产环境带来结果确定性,简化调试与测试流程。

文章图片
#算法#语言模型#机器学习 +1
个人或者“一人公司”搭建AI知识库的三种部署方式分析

我们已经适应了有问题就向豆包、DeepSeek等AI助手提问的方式。一般的问题,大模型都能很好的回答;但在一些专业垂直门类方向的深度问题,通用大模型受限于其训练数据都是公开网络所获取的公开数据,以及训练截止时间早所导致的知识未更新等问题,这就使得AI的回答在专业度和时效性方面有所欠缺。这个时候,我们一般使用自建AI知识库来弥补这个知识空白。就好像用自建的知识库为AI大模型挂接了一个外脑一样。这个问

文章图片
#人工智能#产品经理#学习 +1
大模型应用场景在哪?探索人工智能的无限可能

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)

文章图片
#人工智能#语言模型#算法
VLLM:大模型推理加速的终极武器,技术原理+实战案例+面试指南,值得收藏

VLLM作为大模型推理主流框架,通过分页内存(Page Attention)、连续批处理和内存池管理三大核心技术,实现显存占用降低75%、吞吐量提升2-3倍、碎片减少90%。实战案例显示,相比传统方案,VLLM可将延迟降低68%,服务器需求减少75%,大幅降低推理成本。适用于客服、搜索等高并发场景,已成为大模型工程化落地必备技能。

文章图片
#人工智能#产品经理
R2即将登场:参数翻倍,成本惊人下降88%!

DeepSeek R2大模型曝重磅升级:参数翻倍至1.2万亿,成本却暴跌97%,每百万Token输出仅0.27美元。这款对标GPT-4o的国产模型采用华为昇腾芯片,实现本土算力突破,同时强化多语言、代码和多模态能力。摩根士丹利提前披露的"又聪明又便宜"特性,或将颠覆大模型商业化格局。模型专攻深度推理,预计遵循"2小1大"迭代节奏,虽正式版本仍需等待,但成本性

文章图片
#人工智能#产品经理#大数据 +1
vLLM揭秘:如何实现高吞吐量、低延迟的大模型推理?与应用性能提升的工程解决方案!

vLLM是高性能大模型推理引擎,通过流水线化和Batch调度实现高吞吐量、低延迟。文章解析了其核心架构、推理机制、多模型协作和异构硬件调度技术,展示了与LangChain集成实现完整业务流程的方法。通过代码示例演示了模型加载、批量推理、多GPU并行和动态路由等实践,为提升大模型应用性能提供了工程解决方案。

文章图片
#算法#自然语言处理#github +1
大模型面试必考题解析:PagedAttention是什么?揭秘其主要作用与工作原理!

vLLM性能优异的关键在于其核心技术PagedAttention,它通过分页管理KV Cache解决了大模型推理中的显存效率和并发问题。PagedAttention将KV Cache拆分为固定大小的"页",实现非连续存储和动态分配,显著减少了内存浪费和碎片化。同时支持页共享功能,让相似请求共用相同内容,极大提升了显存利用率。这项技术使vLLM能够处理更长文本、服务更多用户,成为

文章图片
#算法#人工智能#AI
【干货】大模型部署工具Ollama与vLLM深度对比:如何根据需求选择最佳框架!

本文深入对比了两种大语言模型部署工具Ollama和vLLM的优缺点。Ollama以简单易用、低内存占用和跨平台支持见长,适合个人开发者和小型项目;vLLM专注于高性能推理,优化内存使用并支持多GPU并行,适合企业级应用。文章建议根据项目需求、技术基础和资源状况选择合适工具,为开发者部署大语言模型提供重要参考。

文章图片
#人工智能#语言模型#深度学习 +2
2025年大语言模型推理框架深度剖析:从vLLM到SGLang,你的技术选型指南!

本文系统解析了2025年主流LLM推理框架(vLLM、LMDeploy、SGLang等)的架构设计与性能特点,从底层优化到应用部署提供全方位技术选型指南。同时深入探讨智能体架构、多智能体系统及开发框架,并呈现大模型学习路线图,为开发者提供从入门到进阶的完整技术路径,助力AI人才快速掌握大模型核心技术。

文章图片
#语言模型#人工智能#自然语言处理 +2
    共 2627 条
  • 1
  • 2
  • 3
  • 263
  • 请选择