logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-Ascend 模型在昇腾 NPU 上的开发、调试与性能优化

最近几年来,随着大模型在自然语言处理、代码生成和知识问答等领域的快速发展,0Day 模型凭借其前沿算法和大规模参数优势,成为开发者进行高性能推理和实验的重要选择。但是像这些模型对算力资源的要求都比较高,以往的GPU在部署这类模型的时候容易出现性能下降,算力不足等问题。昇腾 NPU 提供了强大的 AI 加速能力,其高带宽内存架构和算子优化,为大模型推理提供了理想平台。我选择了vLLM-Ascend版

文章图片
#人工智能#昇腾
Atlas 300I A2 推理卡

A300I A2 推理卡融合“通用处理器、AI Core、编解码” 于一体,提供超强AI推理、目标检索等功能,具有超强算力、超高能效、高性能特征检索、安全启动等优势,可广泛应用于搜索推荐、内容审核等互联网应用场景。推理卡只支持用于AI推理任务,不支持训练任务。

文章图片
#人工智能
大模型内部组成与层次调用关系

​​​​​大模型 (如GPT-4、Llama 3、Qwen等)并非一个“黑箱”,而是一个由多个。方法:绝对位置编码(如BERT)、旋转位置编码(RoPE,用于Llama 3、Qwen)。:让模型在处理每个Token时,能够“关注”序列中的其他相关Token,建立。)转换为并行的高维向量(Embedding),作为模型的“数学表示”。:加权后的Value向量,表示每个Token的上下文感知表示。:加

#人工智能#机器学习
大模型文件的组成

大模型文件并非一个单一的“黑盒”,而是一个由多个核心组件构成的复杂系统。:硬盘上可见的多个文件,各自承担不同职责。:模型加载到内存后,其内部的神经网络层次结构。

学习框架和推理引擎有什么区别

与上面的 LogisticRegression 不同,它并不是一个已经实现好的模型 ,而是一个实现模型的框架,类似于脚手架,通过 Pytorch 中实现的“类”(import torch.nn as nn) 按照这个框架可以实现一个高性能的模型。:在 sklearn 中,它既可以说是一个“模型”,也可以称作“算法”,在代码层面表现为一个类(LogisticRegression)。模型的核心任务是从

文章图片
#人工智能#机器学习
嵌入式里的小常识:帧头为啥偏爱0x55、0xAA

0x55 和 0xAA 作为帧头的设计,是嵌入式通信中 "信号特性与工程实践" 完美结合的典范。它们利用交替二进制序列带来的同步、调试、波特率识别等多重优势,成为无数自定义协议和部分工业标准的首选帧头,在 UART等异步通信场景中发挥着不可替代的作用。

昇腾系列芯片命名

Ascend310(基本淘汰)

文章图片
#昇腾
昇腾系列芯片命名

Ascend310(基本淘汰)

文章图片
#昇腾
昇腾系列芯片命名

Ascend310(基本淘汰)

文章图片
#昇腾
服务化MindIE Benchmark工具介绍

服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后,以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度,并通过表格的形式展示模型在各个阶段的推理耗时(例如FirstTokenTime、DecodeTime等),以及对应时延的平均值、最小值、最大值、75分位(P75)、90分位(P90、SLO_P90)和99分位(P99)概率统计值,最后将计算结果保存到本地csv

#人工智能
    共 840 条
  • 1
  • 2
  • 3
  • 84
  • 请选择