logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

推理引擎系列(六)《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配

#人工智能#语言模型#自然语言处理 +1
Triton & 九齿系列(二)《Triton-Ascend 编程》

本文介绍了Triton-Ascend架构在昇腾NPU上的适配与优化。重点分析了Triton在昇腾平台上的关键差异:CMD架构对数据连续性的严格要求,以及基于物理核的并行计算特性。详细阐述了算子开发范式,包括Grid设置与物理核匹配的优化策略,并提出了数据类型调整、访存优化等性能优化方法。随着Triton-Ascend的成熟,昇腾NPU的算子开发将更高效,为AI应用部署提供有力支持。

#人工智能#学习#其他
AI 编译器系列(七)《(MLIR)AscendNPU IR 编译堆栈》

本文系统阐述了AscendNPUIR架构的设计原理与实现方法。该架构基于MLIR构建,包含HFusion和HIVM两层核心方言:HFusion负责高层语义预处理和算子简化,HIVM则面向昇腾NPU硬件特性进行轻量化抽象。通过多级方言转换流程、专用OP设计及内存优化技术,实现了从DSL到硬件指令的高效编译。架构还整合了调优选项和Compiler Hint机制,支持细粒度性能优化。AscendNPUI

#人工智能#架构
前沿模型系列(五)《多模态智能及其应用》

本文探讨了多模态理解生成一体化技术的最新进展,聚焦NanoBananaPro模型的原生多模态能力。该技术通过统一架构实现文本与图像的生成与理解,支持长上下文处理和对话式出图。研究分析了高质量数据生产、人类评估体系对模型性能的影响,并指出开源模型在物理规律遵循和意图理解方面的不足。技术脉络部分梳理了从CLIP到GPT-4等关键突破,框架设计则比较了生成外挂、极致统一和融合建模三种技术路线的优缺点。D

#人工智能#架构
推理引擎系列(七)《InfiniLM》

本文系统介绍了InfiniLM大模型推理框架的技术架构与工程实践。框架采用分层设计,包含Python接口层、C++核心层和设备运行时层,支持CPU/GPU多平台部署。重点讲解了内存管理、上下文管理和张量操作等核心组件,详细说明作业项目的环境配置、核心算子实现及Qwen-1.5B模型适配方法。同时提出了CPU加速、CUDA优化、聊天机器人实现等进阶方向,并介绍了国产GPU平台的兼容性优势。通过完整的

#人工智能#算法#深度学习
训练系统系列(五)《强化学习及 DeepSeek》

本文介绍了强化学习基础概念与DeepSeek架构演进。强化学习部分对比了监督学习与强化学习,详细讲解了马尔可夫决策过程、价值函数、贝尔曼方程等核心概念,以及Q-Learning、DQN、策略梯度、Actor-Critic和PPO等算法原理。DeepSeek架构部分概述了从V3到R1、V3.2的演进过程,重点介绍了MoE架构、MLA模块、RLVR训练方法和创新的DSA(稀疏注意力)技术,通过Top-

#人工智能#机器学习
推理引擎系列(六)《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配

#人工智能#语言模型#自然语言处理 +1
推理引擎系列(六)《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配

#人工智能#语言模型#自然语言处理 +1
推理引擎系列(六)《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配

#人工智能#语言模型#自然语言处理 +1
Triton&九齿系列(五)《天数智芯 Triton 实战》

天数智芯通过适配Triton框架实现了国产GPU的高效AI计算,主要优势包括:1)基于LLVM生态的无缝兼容;2)GPGPU架构的高度契合;3)支持Triton Kernels零改写复用。适配工作聚焦编译器层优化,在FlashAttention算子中实现了Block Tiling、MMA指令优化和延时归约等技术,使V2版本性能显著提升。该方案支持开发者直接迁移现有Triton代码,为国产AI芯片生

#人工智能#算法#Triton
    共 59 条
  • 1
  • 2
  • 3
  • 6
  • 请选择