logo
publist
写文章

简介

擅长机器学习,图像处理,深度学习相关算法

擅长的技术栈

pythonpytorchOpenCVC++matlab

可提供的服务

技术咨询,算法开发,算法可行性分析

从第一性原理推导余弦相似度:为什么它是模型量化的“黄金指标”?

摘要:模型量化的核心是保持决策能力而非数值精确,关键在于输出向量的相对大小关系不变。余弦相似度完美满足这一需求,因其对整体缩放不敏感而对相对变化敏感。评估标准:0.99+为优秀可部署,0.95-0.99良好,低于0.9需调整。相比MSE,余弦相似度更符合量化场景的真实需求,是衡量量化精度的终极指标。

文章图片
#概率论#线性代数#机器学习 +1
深度学习量化技术全景解析:从校准算法到量化算子的完整指南

本文系统介绍了神经网络量化的三层架构:校准算法、量化策略和量化算子。校准算法确定最优量化范围,量化策略定义网络级量化方式,量化算子实现具体数学映射。通过一个FP32到INT8的数值示例,展示了从校准到量化的完整流程,包括计算scale和zero_point、量化转换及反量化误差分析。三者协同决定了量化模型的精度、速度和硬件兼容性,为神经网络部署提供了系统化的量化解决方案。

文章图片
#深度学习#算法#人工智能
目标检测演进之路:从手工设计到数据驱动

本文系统梳理了目标检测技术的发展历程,将其划分为四大演进阶段:1)手工设计特征时代(HOG、Haar等),依赖人工定义特征;2)深度学习驱动阶段(R-CNN、YOLO系列),引入自动特征学习但仍保留锚框等强先验;3)先验弱化过渡期(CornerNet、FCOS等),逐步减少人工预设;4)纯数据驱动新范式(DETR系列),基于Transformer实现完全端到端检测。这一演进过程体现了从"人力设计"

文章图片
#目标检测#人工智能#计算机视觉
AI算力三剑客:GPU、NPU、TPU全解析与部署实战

GPU是通用并行计算主力,生态成熟,适合训练和云端推理。NPU是专用能效芯片,为边缘端低延迟场景设计。TPU是谷歌云端专用处理器,与TensorFlow深度集成。价格上,GPU和NPU可采购,TPU仅支持租赁。部署时,GPU代码相对通用,而NPU部署需将模型转换为专用格式并调用特定SDK,无法直接“翻译”GPU代码。开发者需根据云端/边缘、生态、能效和成本需求进行选择。

文章图片
#人工智能#GPU
算子融合:从硬件本质到性能飞跃的深度学习优化艺术

深度学习模型优化中的算子融合技术 算子融合是提升深度学习模型推理性能的关键技术,通过合并多个连续算子为单一复合算子,显著降低内存访问和调度开销。本文深入分析了算子融合的原理与实现: 性能瓶颈:揭示了内存墙(数据搬运速度远低于计算速度)和调度开销(内核启动成本高)两大核心问题 数学原理:以Conv-BN-ReLU为例,展示了如何通过数学等价变换将三个算子合并为一个,减少中间结果的内存存储 实现优势:

文章图片
#深度学习#人工智能#GPU
知识蒸馏全解析:如何让小模型获得大模型的智慧

摘要: 知识蒸馏是一种将大型"教师"模型的知识迁移到轻量"学生"模型的技术,通过软标签传递类间关系等暗知识。其核心机制是温度调节的Softmax函数:训练时用较高温度T软化概率分布以提取知识,推理时恢复T=1。典型流程包括教师生成软标签、学生模仿软预测、组合蒸馏损失(KL散度)和学生损失(交叉熵)进行训练。主要应用包括模型压缩(如BERT→DistilBERT)、模型集成蒸馏和正则化。知识蒸馏实现

文章图片
#深度学习#机器学习#人工智能
模型加速全景图:从“瘦身”到“飞驰”的知识图谱

本文系统梳理了AI模型加速的三大维度:模型自身优化(剪枝、量化、知识蒸馏)、计算过程优化(算子融合、模型编译)和硬件系统优化(专用硬件加速、动态批处理)。通过组合这些方法,可以实现从模型"瘦身"到计算"飞驰"的完整加速路径。针对不同场景(云端/移动端)提供了优化建议,强调模型加速是一个需要平衡效率、成本和性能的系统工程。该知识图谱为AI模型落地提供了清晰的优化思路和技术路线。

文章图片
#人工智能
模型加速的引擎:深入解读量化技术的本质、原理与实践

本文深入探讨了神经网络模型量化技术,从系统视角揭示了量化在解决模型部署"不可能三角"(高精度、低延迟、低成本)中的核心作用。通过类比自动增益控制,阐述了量化通过有限比特最优分配实现信息保真的本质。详细解析了量化数学机理和计算流程,并分类介绍了训练后量化和量化感知训练等关键技术方案。文章还梳理了现代量化工具链和前沿趋势,包括低比特量化、混合精度等发展方向。最后指出量化不仅是工程优化手段,更是连接算法

#人工智能#边缘计算
模型剪枝完全指南:从理论到实践,打造高效深度学习模型

文章摘要 模型剪枝技术通过剔除神经网络中的冗余参数,在保持精度的同时实现模型压缩。本文系统性地介绍了剪枝的核心理念与实现方法: 两种思维模式:自上而下的工程视角(目标导向)与第一性原理的数学视角(优化问题) 数学基础:剪枝与L1正则化一脉相承,通过约束参数数量实现稀疏性 核心流程:评估参数重要性→确定剪枝阈值→应用掩码→微调恢复 实现方法:包括全局剪枝和迭代式剪枝策略,配合微调保持模型性能 技术对

#剪枝#算法#机器学习 +1
神经网络架构全景图:分类、演进与对比分析

神经网络技术已形成视觉感知、序列建模、生成式AI、关系建模、表示学习和基础架构六大类别。视觉领域从CNN到Transformer实现局部到全局建模的跨越;序列处理完成RNN到Transformer的范式迁移;生成式AI通过GAN到扩散模型优化质量与效率;图网络突破结构感知瓶颈。基础架构如全连接网络演变为通用组件。核心创新机制(残差连接、自注意力)持续突破技术瓶颈,当前呈现专用化与融合化并行的趋势,

文章图片
#神经网络#架构#分类
    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择