logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

解锁高通Profiler(4):APIs

摘要:QTI 分析器 API 库提供设备数据分析功能,支持 Windows、Linux 和基于 Snapdragon 的 Windows 平台。文档详细列出了各平台的头文件路径(如 Windows 的 C:\PROGRA~2\Qualcomm...)、库文件位置(包括 Android 和 QNX 的 .so 文件),以及示例代码和 API 文档的存放路径。不同平台的资源路径结构相似,便于开发者快速

#人工智能#微服务
高通 Gen AI 推理扩展 (GENIE)(8):qnn-genai-transformer-composer

摘要: qnn-genai-transformer-composer是一款将LLM模型转换为Genie执行引擎可用的二进制文件的工具。该工具支持多种量化类型(Z4、Z8、Q4等),可配置模型参数(26个静态参数分为5类),并提供tokenizer导出功能。配置文件采用JSON格式,包含模型架构、张量规范、RoPE缩放配置等详细信息。工具支持llama3、yarn和longrope三种RoPE类型,

#人工智能#transformer#composer
高通端侧AI实战(5): 基于骁龙平台的实时AI语义分割系统开发全流程

本文以工厂车间安全监控为案例,完整展示了语义分割模型的端到端部署流程。首先根据30FPS实时处理需求,对比分析后选择PIDNet-S模型,其三分支架构在精度与速度间取得平衡。针对工业场景构建了包含人员、设备、安全区域等8类别的自定义数据集,采用数据增强提升泛化性。最终在骁龙8 Gen3平台上实现720p分辨率下30FPS实时分割,满足低延迟告警和离线部署需求,为工业安全监控提供高效解决方案。

#人工智能#边缘计算
高通端侧AI实战(5): 基于骁龙平台的实时AI语义分割系统开发全流程

本文以工厂车间安全监控为案例,完整展示了语义分割模型的端到端部署流程。首先根据30FPS实时处理需求,对比分析后选择PIDNet-S模型,其三分支架构在精度与速度间取得平衡。针对工业场景构建了包含人员、设备、安全区域等8类别的自定义数据集,采用数据增强提升泛化性。最终在骁龙8 Gen3平台上实现720p分辨率下30FPS实时分割,满足低延迟告警和离线部署需求,为工业安全监控提供高效解决方案。

#人工智能#边缘计算
高通端侧AI实战(4): QNN模型量化深度指南与Hexagon NPU性能调优

本文深入讲解大模型量化的数学原理与NPU性能优化。首先介绍线性量化公式,对比对称/非对称量化方法,分析Per-Tensor/Per-Channel/Per-Group三种粒度。针对QNN量化提出四种方案:基础PTQ量化、增强型PTQ(支持混合精度配置)、混合精度量化(自动敏感度分析)以及量化感知训练(QAT)。通过量化参数优化和NPU架构适配,可解决精度损失、性能瓶颈等问题,为端侧大模型部署提供系

文章图片
#人工智能
高通端侧AI实战(4): QNN模型量化深度指南与Hexagon NPU性能调优

本文深入讲解大模型量化的数学原理与NPU性能优化。首先介绍线性量化公式,对比对称/非对称量化方法,分析Per-Tensor/Per-Channel/Per-Group三种粒度。针对QNN量化提出四种方案:基础PTQ量化、增强型PTQ(支持混合精度配置)、混合精度量化(自动敏感度分析)以及量化感知训练(QAT)。通过量化参数优化和NPU架构适配,可解决精度损失、性能瓶颈等问题,为端侧大模型部署提供系

文章图片
#人工智能
高通端侧AI实战(3): 骁龙平台端侧大模型部署实战

文章摘要: 本文探讨了在骁龙8 Elite手机上部署Llama 2 7B大语言模型的实践方案。通过INT4量化技术将模型压缩至3.5GB,利用Hexagon NPU的75 TOPS算力实现端侧高效推理。文章详细解析了量化选型(推荐W4A8-GPTQ)、校准数据准备及模型转换流程,并对比了GPTQ与AWQ量化方法。针对内存、算力等核心挑战,提出NPU加速、KV-Cache优化等解决方案,最终实现20

文章图片
#人工智能#边缘计算
高通端侧AI实战(3): 骁龙平台端侧大模型部署实战

文章摘要: 本文探讨了在骁龙8 Elite手机上部署Llama 2 7B大语言模型的实践方案。通过INT4量化技术将模型压缩至3.5GB,利用Hexagon NPU的75 TOPS算力实现端侧高效推理。文章详细解析了量化选型(推荐W4A8-GPTQ)、校准数据准备及模型转换流程,并对比了GPTQ与AWQ量化方法。针对内存、算力等核心挑战,提出NPU加速、KV-Cache优化等解决方案,最终实现20

文章图片
#人工智能#边缘计算
高通端侧AI实战(2): YOLOv8在骁龙平台的部署实战

本文深入实战YOLOv8在骁龙Hexagon NPU的端侧部署流程,提供两种路径:快速路径可直接下载高通预优化的HuggingFace模型(YOLOv8n仅3.26MB,INT8量化后NPU延迟低至3.5ms);深度路径详解ONNX导出技巧(分离NMS后处理)及QNN SDK转换流程。通过对比YOLOv8各变体性能(YOLOv8n参数量3.2M,延迟4.5ms),指导移动端实时场景选型,并给出ON

文章图片
#人工智能#边缘计算
高通端侧AI实战(2): YOLOv8在骁龙平台的部署实战

本文深入实战YOLOv8在骁龙Hexagon NPU的端侧部署流程,提供两种路径:快速路径可直接下载高通预优化的HuggingFace模型(YOLOv8n仅3.26MB,INT8量化后NPU延迟低至3.5ms);深度路径详解ONNX导出技巧(分离NMS后处理)及QNN SDK转换流程。通过对比YOLOv8各变体性能(YOLOv8n参数量3.2M,延迟4.5ms),指导移动端实时场景选型,并给出ON

文章图片
#人工智能#边缘计算
    共 266 条
  • 1
  • 2
  • 3
  • 27
  • 请选择