logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

资讯 - 英伟达发布的财报显示出色的业绩,主要得益于 AI 大模型的爆火和算力需求的增加;ChatGPT 失控事件引发了对大语言模型安全性和稳健性的讨论,OpenAI 已紧急修复问题。

资讯 - 英伟达发布的财报显示出色的业绩,主要得益于 AI 大模型的爆火和算力需求的增加;ChatGPT 失控事件引发了对大语言模型安全性和稳健性的讨论,OpenAI 已紧急修复问题。

文章图片
#人工智能#ChatGPT
快来看看 vLLM × Ascend 年度回顾:2025 年度总结

2025 年,vLLM Ascend 项目正式创建,并在一年内完成了 25 次快速迭代,与社区共同打磨代码、测试、文档与反馈。项目的使命是为昇腾(Ascend)用户提供易用、高性能、低成本的推理服务,并推动从 0 到 1 到生产落地的持续演进,聚焦分布式推理与强化学习等关键场景。全年发布了 3 个正式版本和 22 个尝鲜版本,重要里程碑包括 v0.7.1rc1、v0.7.3、v0.9.1、v0.1

文章图片
快来看看 vLLM × Ascend 年度回顾:2025 年度总结

2025 年,vLLM Ascend 项目正式创建,并在一年内完成了 25 次快速迭代,与社区共同打磨代码、测试、文档与反馈。项目的使命是为昇腾(Ascend)用户提供易用、高性能、低成本的推理服务,并推动从 0 到 1 到生产落地的持续演进,聚焦分布式推理与强化学习等关键场景。全年发布了 3 个正式版本和 22 个尝鲜版本,重要里程碑包括 v0.7.1rc1、v0.7.3、v0.9.1、v0.1

文章图片
一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例

一文了解开源大语言模型文件结构,以 Hugging Face DeepSeek-V3.1 模型仓库为例

文章图片
#人工智能
如何让大模型跑得更快、更便宜?值得研读的高效推理综述论文/技术文章与工程实践资源汇总,全面涵盖 LLM、VLM、VLA、长上下文情景的高效推理

大语言模型的浪潮已从 "能生成" 进入 "如何高效生成" 的深水区。推理效率不再只是大模型落地的附属议题,而是贯穿算法、系统乃至硬件全栈的关键战场。从 vLLM 的分页注意力,到自适应推测解码、Prefilling/Decoding 分离架构、大规模专家并行、KV 缓存压缩与跨节点传输,每一项创新都在重塑算力利用的极限。这篇博文汇总了一些最具代表性的大模型高效推理综述论文和博客,为想入行 LLM

文章图片
#人工智能
一文了解大语言模型推理性能优化关键技术之 PD 分离及典型的 PD 分离方案

本文首先明确大语言模型推理系统的关键性能指标,继而剖析预填充(Prefilling)与解码(Decoding)这两个阶段的核心特征。基于上述分析,本文指出:持续批处理(Continuous Batching)采用阶段隔离与抢占机制,虽有助于提高系统吞吐量并降低首令牌延迟(Time To First Token,TTFT),但会显著增加词元间延迟(Token-to-Token Delay,TBT),

文章图片
#性能优化
虚拟化向左,超节点向右,一文了解实现 GPU/NPU 利用率提升达 30% 的 “黑科技”

超节点、虚拟化、Aegaeon。虚拟化向左,超节点向右,一文了解实现 GPU/NPU 利用率提升达 30% 的 “黑科技”。

文章图片
#人工智能
一文掌握 CodeX CLI 安装以及使用!

CodeX CLI 是一个可在本地终端运行的编码智能体,能够在本机指定目录中读取、修改并执行代码。CodeX CLI 为开源项目,使用 Rust 开发,侧重性能与效率。该项目托管于 GitHub(https://github.com/openai/codex),并在持续迭代中不断完善。

文章图片
#人工智能
计算机科学与人工智能专业的应届毕业生应如何提高自身的就业的认知和竞争力?

深入分析:在当前中国高校的教育体系及就业市场环境下,计算机科学与人工智能专业的应届毕业生应如何提高自身的就业的认知和竞争力?

文章图片
#人工智能
PyTorch 深度学习框架中 torch.cuda.empty_cache() 的妙用与注意事项

PyTorch 深度学习框架中 torch.cuda.empty_cache() 的妙用与注意事项

文章图片
#深度学习#GPU
    共 152 条
  • 1
  • 2
  • 3
  • 16
  • 请选择