
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配
本文介绍了Triton-Ascend架构在昇腾NPU上的适配与优化。重点分析了Triton在昇腾平台上的关键差异:CMD架构对数据连续性的严格要求,以及基于物理核的并行计算特性。详细阐述了算子开发范式,包括Grid设置与物理核匹配的优化策略,并提出了数据类型调整、访存优化等性能优化方法。随着Triton-Ascend的成熟,昇腾NPU的算子开发将更高效,为AI应用部署提供有力支持。
本文系统阐述了AscendNPUIR架构的设计原理与实现方法。该架构基于MLIR构建,包含HFusion和HIVM两层核心方言:HFusion负责高层语义预处理和算子简化,HIVM则面向昇腾NPU硬件特性进行轻量化抽象。通过多级方言转换流程、专用OP设计及内存优化技术,实现了从DSL到硬件指令的高效编译。架构还整合了调优选项和Compiler Hint机制,支持细粒度性能优化。AscendNPUI
本文探讨了多模态理解生成一体化技术的最新进展,聚焦NanoBananaPro模型的原生多模态能力。该技术通过统一架构实现文本与图像的生成与理解,支持长上下文处理和对话式出图。研究分析了高质量数据生产、人类评估体系对模型性能的影响,并指出开源模型在物理规律遵循和意图理解方面的不足。技术脉络部分梳理了从CLIP到GPT-4等关键突破,框架设计则比较了生成外挂、极致统一和融合建模三种技术路线的优缺点。D
本文系统介绍了InfiniLM大模型推理框架的技术架构与工程实践。框架采用分层设计,包含Python接口层、C++核心层和设备运行时层,支持CPU/GPU多平台部署。重点讲解了内存管理、上下文管理和张量操作等核心组件,详细说明作业项目的环境配置、核心算子实现及Qwen-1.5B模型适配方法。同时提出了CPU加速、CUDA优化、聊天机器人实现等进阶方向,并介绍了国产GPU平台的兼容性优势。通过完整的
本文介绍了强化学习基础概念与DeepSeek架构演进。强化学习部分对比了监督学习与强化学习,详细讲解了马尔可夫决策过程、价值函数、贝尔曼方程等核心概念,以及Q-Learning、DQN、策略梯度、Actor-Critic和PPO等算法原理。DeepSeek架构部分概述了从V3到R1、V3.2的演进过程,重点介绍了MoE架构、MLA模块、RLVR训练方法和创新的DSA(稀疏注意力)技术,通过Top-
本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配
本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配
本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配
天数智芯通过适配Triton框架实现了国产GPU的高效AI计算,主要优势包括:1)基于LLVM生态的无缝兼容;2)GPGPU架构的高度契合;3)支持Triton Kernels零改写复用。适配工作聚焦编译器层优化,在FlashAttention算子中实现了Block Tiling、MMA指令优化和延时归约等技术,使V2版本性能显著提升。该方案支持开发者直接迁移现有Triton代码,为国产AI芯片生








