logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CPU 并行编程系列《CPU 性能优化导论》

CPU推理优化技术摘要 CPU推理作为GPU的重要补充方案,在私有化部署、边缘计算等场景中具有显著优势。本文系统分析了CPU推理的性能优化策略:1)通过缓存优化利用局部性原理,改进数据存储格式和循环结构;2)采用SIMD向量化和多线程并行技术提升计算效率;3)运用分块计算策略匹配多级缓存容量;4)实施模型量化平衡精度与效率。同时强调了使用优化库和性能分析工具的重要性,为CPU并行编程提供了全面的理

#性能优化#人工智能#学习 +1
数据挖掘与机器学习:玩转列表

第一关本关任务是对一个给定的列表进行增、删、改等操作,并输出变化后的最终列表。第二关本关的任务是学会列表排序相关操作的使用方法,实现对列表元素的排序。第三关本关任务是利用合适的方法快速创建数字列表,并能够对列表中的元素数值进行简单的统计运算。第四关我们在前三关中学习了如何处理单个列表元素和所有列表元素,在这一关中我们还将学习如何处理部分列表元素(Python 中称为切片)。

#数据挖掘#学习#其他
数据挖掘与机器学习:Python机器学习软件包Scikit-Learn的学习与运用

第一关任务描述使用 scikit-learn 的datasets模块导入 iris 数据集,并打印数据。第二关任务描述在前一关卡,我们已经学会了使用 sklearn 导入数据,然而原始数据总是比较杂乱、不规整的,直接加载至模型中训练,会影响预测效果。第一关至第六关

#python#数据挖掘#其他 +1
数据挖掘与机器学习:数据挖掘算法原理与实践:数据预处理

第一关本关任务:利用sklearn对数据进行标准化。为了完成本关任务,你需要掌握:1.为什么要进行标准化,2.Z-score标准化,3.Min-max标准化,4.MaxAbs标准化。第二关本关任务:利用sklearn对数据进行非线性转换。为了完成本关任务,你需要掌握:1.为什么要非线性转换,2.映射到均匀分布,3.映射到高斯分布。第三关本关任务:利用sklearn对数据进行归一化。第四关、本关任务

#数据挖掘#其他#学习
数据库系统原理及应用——仓库管理系统

该仓库管理系统,其功能符合要求,能够完成仓库的基本入库出库,货物信息、供应商信息的修改,能够很好的实现了仓库管理系统的功能。

#数据库#学习#其他 +1
数据挖掘与机器学习:机器学习 --- 决策树

第一关本关任务:根据本节课所学知识完成本关所设置的选择题。第二关本关任务:掌握什么是信息增益,完成计算信息增益的程序设计。第三关本关任务:根据本关所学知识,完成calcInfoGainRatio函数。第四关本关任务:根据本关所学知识,完成calcInfoGainRatio函数。第五关本关任务:根据本关所学知识,完成calcGini函数。第六关本关任务:补充python代码,完成DecisionTr

#决策树#数据挖掘#学习 +1
推理引擎系列(六)《vLLM-Ascend 大模型推理》

本文介绍了vLLM-ascend推理引擎的整体架构与核心技术。主要内容包括:1) 社区演进与华为昇腾技术路线,强调开源生态的重要性;2) 架构解析,包含计算架构层和框架Plugin层设计;3) 核心技术如PagedAttention内存管理、ContinuousBatching优化等;4) 推理精度与性能分析方法及工具使用;5) 部署流程与常用特性。重点展示了vLLM-ascend如何通过硬件适配

#人工智能#语言模型#自然语言处理 +1
Triton & 九齿系列(二)《Triton-Ascend 编程》

本文介绍了Triton-Ascend架构在昇腾NPU上的适配与优化。重点分析了Triton在昇腾平台上的关键差异:CMD架构对数据连续性的严格要求,以及基于物理核的并行计算特性。详细阐述了算子开发范式,包括Grid设置与物理核匹配的优化策略,并提出了数据类型调整、访存优化等性能优化方法。随着Triton-Ascend的成熟,昇腾NPU的算子开发将更高效,为AI应用部署提供有力支持。

#人工智能#学习#其他
AI 编译器系列(七)《(MLIR)AscendNPU IR 编译堆栈》

本文系统阐述了AscendNPUIR架构的设计原理与实现方法。该架构基于MLIR构建,包含HFusion和HIVM两层核心方言:HFusion负责高层语义预处理和算子简化,HIVM则面向昇腾NPU硬件特性进行轻量化抽象。通过多级方言转换流程、专用OP设计及内存优化技术,实现了从DSL到硬件指令的高效编译。架构还整合了调优选项和Compiler Hint机制,支持细粒度性能优化。AscendNPUI

#人工智能#架构
前沿模型系列(五)《多模态智能及其应用》

本文探讨了多模态理解生成一体化技术的最新进展,聚焦NanoBananaPro模型的原生多模态能力。该技术通过统一架构实现文本与图像的生成与理解,支持长上下文处理和对话式出图。研究分析了高质量数据生产、人类评估体系对模型性能的影响,并指出开源模型在物理规律遵循和意图理解方面的不足。技术脉络部分梳理了从CLIP到GPT-4等关键突破,框架设计则比较了生成外挂、极致统一和融合建模三种技术路线的优缺点。D

#人工智能#架构
    共 64 条
  • 1
  • 2
  • 3
  • 7
  • 请选择