logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-Ascend推理部署与性能调优深度实战指南:架构解析、环境搭建与核心配置

然而,随着 AI 算力需求的指数级增长,算力供应的多元化已成为行业共识。华为昇腾(Ascend)系列 AI 处理器,特别是 Atlas 800 A2(搭载 Ascend 910B 芯片)系列,凭借其在 FP16/BF16 混合精度计算上的强劲性能,逐渐成为国产化算力集群的首选。由于 vLLM 主干代码迭代极快,且部分 CUDA 语义(如 CUDA Graph)无法直接映射到 NPU 的 ACL G

文章图片
#架构#人工智能#restful +2
NVIDIA迁移昇腾踩坑记:为何数据拷贝成了“背锅侠”?(附1.5s→0.7s优化复盘)

本次小模型迁移性能调优实战,从最初的性能衰退到最终的超越原平台性能,整个过程充满了技术挑战和发现。最关键的是,我们打破了直觉的误导,通过科学的Profiling分析找到了真正的性能瓶颈。目前CANN的迭代速度很快,建议大家在迁移时如果遇到性能瓶颈,不要死磕代码逻辑,先跑一遍Profiler,大概率能帮你省下几天排查时间。如果常规手段搞不定,试试Torchair或者MindIE这种针对性的推理后端,

#学习#性能优化#昇腾
喂饭级 Gemini 3.0 使用教程:国内实测可用,看完就学会

DeepSider还内置了DeepL、谷歌翻译、GPT 4omini三大翻译源,在遇到看不懂的单词或短句时,都可以直接调用侧边栏快速翻译成中文。,以及Sora 2,GPT-5,Claude 4.5,Nano Banana,Grok4......等几十款全球热门的AI大模型。可以看到,Gemini 3.0 Pro正确地理解了用户要求,动画也很流畅,代码中几乎没有Bug存在。要是你懒得看完一篇文章,还

#人工智能#学习#后端
vLLM-Ascend推理部署与性能调优深度实战指南:架构解析、环境搭建与核心配置

然而,随着 AI 算力需求的指数级增长,算力供应的多元化已成为行业共识。华为昇腾(Ascend)系列 AI 处理器,特别是 Atlas 800 A2(搭载 Ascend 910B 芯片)系列,凭借其在 FP16/BF16 混合精度计算上的强劲性能,逐渐成为国产化算力集群的首选。由于 vLLM 主干代码迭代极快,且部分 CUDA 语义(如 CUDA Graph)无法直接映射到 NPU 的 ACL G

文章图片
#架构#人工智能#restful +1
NVIDIA迁移昇腾踩坑记:为何数据拷贝成了“背锅侠”?(附1.5s→0.7s优化复盘)

本次小模型迁移性能调优实战,从最初的性能衰退到最终的超越原平台性能,整个过程充满了技术挑战和发现。最关键的是,我们打破了直觉的误导,通过科学的Profiling分析找到了真正的性能瓶颈。目前CANN的迭代速度很快,建议大家在迁移时如果遇到性能瓶颈,不要死磕代码逻辑,先跑一遍Profiler,大概率能帮你省下几天排查时间。如果常规手段搞不定,试试Torchair或者MindIE这种针对性的推理后端,

#学习#性能优化
喂饭级 Gemini 3.0 使用教程:国内实测可用,看完就学会

DeepSider还内置了DeepL、谷歌翻译、GPT 4omini三大翻译源,在遇到看不懂的单词或短句时,都可以直接调用侧边栏快速翻译成中文。,以及Sora 2,GPT-5,Claude 4.5,Nano Banana,Grok4......等几十款全球热门的AI大模型。可以看到,Gemini 3.0 Pro正确地理解了用户要求,动画也很流畅,代码中几乎没有Bug存在。要是你懒得看完一篇文章,还

#人工智能#学习#后端
从60帧到360帧:对比ToDesk、向日葵、TeamViewer三款远程巨头的画质进化

无论是枪口火焰的粒子效果,还是敌人快速移动的残影,都清晰、流畅,无拖影。文件中心真的非常适合修图、设计师,它可以直接展示本机的设备详情,可以直接拖拽和选择文件,通过设备代码或设备列表进行选择,而且这都是在同账号设备下进行的,意味着在安全保障的基础上,你可以“一传多”台设备,发挥着ToDesk无损画质、断点续传的优势。15帧率下可以勉强进行游戏,但是508ms的延时带来的非常不好的体验,即使在自身不

文章图片
#学习#性能优化
CANN在智能安防场景中的落地实践:释放硬件潜能,简化AI开发

问题一:海量视频数据实时处理能力不足解决方案:基于CANN模板库快速开发高性能预处理、特征提取算子,模板内置的tiling优化与并行计算能力提升内存访问效率,结合分布式通信实现多摄像头数据并行处理。效果:系统可实时处理1200路720P或600路1080P视频流,异常事件预警响应时间从3秒缩短至0.6秒,处理能力提升400%,完全满足大型城市监控中心的海量数据处理需求。问题二:AI开发门槛高,人才

文章图片
#人工智能#学习#网络协议 +1
CANN在智能安防场景中的落地实践:释放硬件潜能,简化AI开发

问题一:海量视频数据实时处理能力不足解决方案:基于CANN模板库快速开发高性能预处理、特征提取算子,模板内置的tiling优化与并行计算能力提升内存访问效率,结合分布式通信实现多摄像头数据并行处理。效果:系统可实时处理1200路720P或600路1080P视频流,异常事件预警响应时间从3秒缩短至0.6秒,处理能力提升400%,完全满足大型城市监控中心的海量数据处理需求。问题二:AI开发门槛高,人才

文章图片
#人工智能#学习#网络协议 +1
CANN特性能力解析:释放硬件潜能,简化AI开发

作为华为昇腾AI基础软硬件平台的核心,CANN(Compute Architecture for Neural Networks)通过端云一致的异构计算架构,为AI基础设施提供了从硬件驱动到上层框架适配的软件支撑。其以极致性能优化为核心目标,覆盖应用开发、算子开发、模型部署全流程,显著降低了AI开发门槛。接下来我将从三个维度展开,为大家揭示CANN的技术魅力。一、CANN的核心价值:构建全场景AI

文章图片
#人工智能#学习
    共 15 条
  • 1
  • 2
  • 请选择