登录社区云,与社区用户共同成长
邀请您加入社区
本文介绍了大模型推理优化中注意力层的性能瓶颈问题及解决方案。针对7B参数模型在Ascend910上运行时显存爆炸的问题,通过采用ops-transformer仓库的FlashAttention算子,显存占用从16GB降至4GB,吞吐提升2倍。文章详细解析了FlashAttention的分块计算、OnlineSoftmax等核心优化技术,以及MoE和MC2算子的性能优势。同时提供了分块参数调优、精度
本文介绍了Transformer模型中算子融合优化技术。一个Transformer Block包含12+个独立算子,每个算子启动开销约50μs,总启动开销达600μs(占计算时间的30%)。通过graph-autofusion引擎可将12个算子融合为4个kernel,将启动开销降至200μs。 融合引擎采用四步流程:1)子图匹配,识别可融合模式;2)依赖分析,确保语义不变;3)代价估计,评估性能收
AI投资逻辑正从GPU单点转向全栈基础设施共振。2026年AI产业进入推理主导期,CPU、存储、PCB和光互联需求同步爆发:CPU与GPU配比从1:8逼近1:1;存储因扩产周期长持续紧缺;VR200架构使PCB价值量增长233%;1.6T光模块加速渗透。核心标的包括沪电股份(PCB)、兆易创新(存储)、国科微(CPU)等,各环节呈现量价齐升态势。建议分层配置,重点关注VR200量产进度和存储价格走
摘要 本文揭示了昇腾NPU编译链路中的关键设计——PTO虚拟指令集。作为连接AI编译器与硬件执行的桥梁,PTO指令集通过定义90+标准Tile级操作,实现了计算图到硬件指令的抽象转换。文章首先分析了直接生成硬件指令的困境,指出PTO通过解耦编译器前端与硬件细节,支持跨代际昇腾芯片的兼容性。随后详细阐述了PTO的核心定位和指令格式,说明其如何承接不同框架的输出。重点剖析了Graph Compiler
摘要: MoE(混合专家)技术通过将大模型分解为多个小专家模块,每个token仅激活部分专家,显著降低计算量。DeepSeek-V3采用256个专家,每个token仅使用8个,计算量降至稠密模型的1/32。标准MoE实现包含路由打分、Top-K选择、专家分发、计算和结果聚合五个步骤,其中3-5步是性能瓶颈。ops-transformer通过融合kernel优化流程:1)并行处理所有token的路由
本文系统梳理了六种核心相似性度量指标(L2欧氏距离、内积、余弦相似度、汉明距离、杰卡德相似度、BM25),通过分类对比揭示其特性与适用场景:L2适合物理特征,余弦/IP用于文本语义,汉明处理二进制数据,杰卡德匹配集合关系,BM25专注关键词检索。特别指出RAG场景中"BM25+COSINE"的混合检索优势,并提供简明选型指南,如文本语义选余弦、推荐系统用内积等。文末附赠AI大模型学习资源包,涵盖教
1. 大模型(LLM)是地基——一个经过海量数据训练的文字预测引擎2. Token是它的燃料——每次使用都在消耗,按量付费3. API是通道——程序通过它调用大模型4. Prompt是你对大模型说的话——背景、目标、约束、示例5. 温度是创造力的旋钮——调高更有创意,调低更准确6. 幻觉是它的天生缺陷——它可能编造事实,记得核实7. Agent是装了身体的大模型——能思考,也能动手操作是Agent
机器学习与深度学习的区别及学习路径指南 摘要:机器学习(ML)和深度学习(DL)是AI领域的核心分支,二者为包含关系(ML包含DL)。ML依赖人工特征工程,适合结构化数据和中小规模任务;DL通过神经网络自动提取特征,擅长非结构化数据和大规模场景。零基础者建议先学ML,掌握特征工程、基础算法(如线性回归、决策树)及数学原理(线性代数、概率统计),再过渡到DL。典型学习周期约6个月,需依次掌握Pyth
蛋白、口袋与复合物表征,是AIDD中非常重要的一层基础。多序列比对让我们看到进化留下的痕迹;蛋白语言模型让AI学习蛋白序列的语法;残基层表征让每个氨基酸都有了数字画像;反向折叠让结构设计反过来指导序列生成;结合口袋告诉我们小分子可能在哪里落脚;口袋描述符让口袋变成可计算对象;表面互补性衡量分子与蛋白是否合拍;蛋白-蛋白相互作用界面揭示蛋白之间的接触现场;复合物图表示把相互作用变成可学习的网络;变构
摘要: CANN skills 是昇腾开源社区提供的开发辅助工具集,包含四大核心功能:1)算子开发脚手架(op-gen),通过命令行一键生成算子开发所需的5个标准文件(Proto定义、算子注册、Kernel实现、测试用例、构建配置),开发者只需专注核心逻辑实现;2)性能分析脚本(prof-parser),自动解析msprof输出的复杂JSON数据,生成结构化性能报告,快速定位瓶颈算子;3)容器化部
CANN开源项目采用CMake构建系统,cann-cmake仓库提供标准化模块简化开发。FindCANN.cmake自动发现CANN安装路径,AscendCCore.cmake封装Ascend C编译规则,AscendKernel.cmake支持多架构kernel编译,AscendOpsProto自动生成算子定义。这些模块将CMake配置从200行缩减至20行,实现自动版本检查、多架构优化和算子原
本文介绍了使用CNN进行MNIST手写数字识别的完整流程,采用代码驱动的学习方式。主要内容包括:1) 环境准备与MNIST数据加载;2) 数据预处理(归一化和通道维度调整);3) 构建CNN模型(包含卷积层、池化层、全连接层);4) 模型训练与评估。文章通过代码示例、原理解释和深入思考三个维度,详细讲解了每个步骤的实现方法和背后的深度学习原理,特别对卷积运算、ReLU激活函数等核心概念进行了可视化
RAG(检索增强生成)技术通过为AI构建专属知识库,有效解决AI"答非所问"和"幻觉"问题。其工作原理分为三步:搭建知识库、检索匹配信息、增强生成答案,使AI能结合最新精准信息作答。RAG的核心价值在于解决AI三大痛点:减少幻觉、更新知识、理解专属信息。该技术已广泛应用于企业客服、职场办公、专业领域和个人学习等场景,显著提升AI回答的准确性和实用性。相比普通AI仅凭记忆作答,RAG让AI实现"查资
电力预测系统基于时序模型(LSTM/Transformer/TCN)解决负荷预测、设备预警和发电量预测三类任务。核心挑战在于时序模型在NPU上的高效部署:TCN的膨胀卷积面临缓存复用率低的问题,LSTM的gate计算则适合Vector单元并行处理。优化策略包括预加载时间步数据减少HBM访问,以及利用NPU架构特性提升计算效率。系统在短期负荷预测(MAPE<3%)、变压器故障预警(F1>0.9)等任
Spack作为HPC领域的主流包管理工具,通过独特的spec字符串机制实现了多版本软件包的精确共存管理。相比pip/conda,Spack支持同一软件包的不同编译器版本、依赖版本和架构变体独立安装。cann-spack-package项目将CANN工具链打包为Spack格式,使HPC集群能够一键部署多版本CANN环境。Spack通过环境锁定机制确保计算可复现性,但面临依赖解析耗时、固件驱动版本绑定
RAG(检索增强生成)是一种让大模型"先查资料再回答"的技术流程,通过检索指定资料来提升回答准确性。它解决了大模型三大短板:无法获取私有资料、知识更新滞后和容易产生幻觉。RAG特别适用于企业知识库问答、智能客服等需要精准回答的场景,相比重新训练模型更经济高效。虽然RAG能显著提升回答可靠性,但其实施效果取决于企业文档管理水平。这项技术正推动AI从"会聊的工具"向"能用的系统"转变,成为当前AI应用
本文介绍了一个基于Python的高校企业招聘网站的设计与实现。该系统旨在解决传统校园招聘中信息分散、流程低效的问题,通过统一平台整合企业招聘、学生求职和学校管理三大功能。文章详细阐述了项目背景、技术优势、核心功能模块(包括用户认证、企业资质审核、岗位发布、简历投递等)以及关键技术实现方案。系统采用Django框架开发,实现了多角色权限控制、招聘流程状态管理、高效数据检索等功能,有效提升了校园招聘的
人口老龄化趋势正在加速,在多数城市中,高龄人口在整体人口中的占比持续提升,传统家庭照护模式逐渐难以满足现实需求,专业化的养老机构应运而生。养老院作为集中照料老年人的重要服务载体,不仅承担着起居照护、医疗辅助、康复护理、心理陪伴等多重职责,同时还需要与医疗机构、家庭成员、政府监管部门保持高频、精准、合规的信息交互。随着入住人数增加、服务类型复杂化、监管要求提高,依靠纸质档案、手工登记和分散电子表格进
摘要: 本文介绍了一个基于Python的高校档案管理系统开发项目,针对传统纸质档案管理效率低、安全性差等问题,提出了一套信息化解决方案。系统采用分层架构设计,结合Flask框架和SQLAlchemy ORM工具,实现了档案的规范化管理、多条件检索、权限控制和流程追溯。核心功能包括档案状态机管理、附件安全存储、操作日志审计等,并通过REST API提供数据接口。系统设计注重数据结构化、权限细粒度划分
词嵌入把文字变成向量,让AI能算词和词之间的距离。
你遇到过一个场景吗——模型在GPU上跑得好好的,搬到昇腾NPU上,Attention层直接Segmentation Fault。报错信息只有一行core dump,百度Google都搜不到。你翻遍了官方文档,最后在cann-learning-hub的一个讨论帖里,看到有人把ops-transformer的FlashAttention接入代码贴了出来。这篇文章就是那个帖子的完整版。
摘要 Transformer架构通过自注意力机制使大模型能够动态分析文本中词语间的关系,解决了传统序列模型的长距离依赖问题。其核心在于:1)Self-Attention让每个词自主计算与其他词的相关性权重;2)多头注意力并行捕捉语法、语义等多维度关系;3)位置编码保留词序信息。这种设计使模型能像人类一样理解指代、逻辑等复杂语言关系,如准确判断"他"的指代对象。理解Transformer的工作原理有
本文分享了将PyTorch原生attention迁移到昇腾FlashAttention融合算子的实践经验。首先介绍了环境准备要点,包括CANN版本、NPU设备等基础配置。然后详细说明了ops-transformer仓库的编译流程,强调必须先编译opbase再编译flash_attention的顺序。接着指导如何运行示例程序进行验证,并指出常见问题如LD_LIBRARY_PATH设置。最后分析了关键
去年帮朋友把一个NLP模型从GPU迁移到昇腾NPU,Attention层直接崩了。翻了一圈昇腾CANN的文档没找到答案,最后在cann-learning-hub的讨论区里看到有人把ops-transformer的FlashAttention接入PyTorch的完整代码贴了出来。这件事让我意识到一件事:昇腾CANN的玩法,官方文档只写了"能做什么",真要"怎么上手",得去社区里找。cann-lear
昇腾NPU上Attention算子性能优化解析 文章通过一个实际案例揭示了昇腾NPU上Attention算子的性能优化关键。标准Attention在NPU上表现不佳(2.3s)并非硬件问题,而是由于频繁的数据搬运导致。FlashAttention通过三大创新实现650ms的显著提升:1)片上缓存计算避免HBM频繁访问;2)手动调优的Tiling策略适配达芬奇架构;3)在线Softmax算法减少扫描
会话型后台最怕的不是模型答错,而是 Agent 在列表刷新、未读排序和自动跳转之后,把本轮操作提交到错误会话。本文围绕 Conversation Claim、Active Thread Proof 与提交前校验三道护栏,拆解为什么“看起来点对了”仍然会回错人、误关单或串上下文,并给出一套可复现的实现骨架、对比表和上线建议,适合做客服、工单、企业 IM 与运营后台自动化的团队参考。
该数据集主要面向人群检测、行人识别、密集场景分析与人流统计等任务设计,包含从不同场景(如街道、商场、地铁口、校园等)采集的多样化图像。每张图片均经过精确的边界框(Bounding Box)标注,能够为深度学习模型提供可靠的训练数据。数据项说明样本总数9000张图片标注类别(中文)人标注类别(英文)person类别数量1类训练集7200张(约占80%)验证集1800张(约占20%)数据格式YOLO格
本文探讨了NPU显存碎片问题及池化分配器设计。显存碎片分为外部碎片(不连续空闲内存)和内部碎片(分配块大于实际需求)。NPU场景下,批量推理、动态Shape和多模型交替执行加剧了碎片问题。为解决这一问题,提出池化分配器方案:预分配大块显存并按2的幂分级管理,通过空闲链表实现快速分配,采用合并策略减少外部碎片。实现包含线程安全机制、块拆分与合并算法,在控制内部碎片率的同时提升管理效率。该设计能有效应
深度学习
——深度学习
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net