
简介
擅长机器学习,图像处理,深度学习相关算法
擅长的技术栈
可提供的服务
技术咨询,算法开发,算法可行性分析
摘要:模型量化的核心是保持决策能力而非数值精确,关键在于输出向量的相对大小关系不变。余弦相似度完美满足这一需求,因其对整体缩放不敏感而对相对变化敏感。评估标准:0.99+为优秀可部署,0.95-0.99良好,低于0.9需调整。相比MSE,余弦相似度更符合量化场景的真实需求,是衡量量化精度的终极指标。

本文系统介绍了神经网络量化的三层架构:校准算法、量化策略和量化算子。校准算法确定最优量化范围,量化策略定义网络级量化方式,量化算子实现具体数学映射。通过一个FP32到INT8的数值示例,展示了从校准到量化的完整流程,包括计算scale和zero_point、量化转换及反量化误差分析。三者协同决定了量化模型的精度、速度和硬件兼容性,为神经网络部署提供了系统化的量化解决方案。

本文系统梳理了目标检测技术的发展历程,将其划分为四大演进阶段:1)手工设计特征时代(HOG、Haar等),依赖人工定义特征;2)深度学习驱动阶段(R-CNN、YOLO系列),引入自动特征学习但仍保留锚框等强先验;3)先验弱化过渡期(CornerNet、FCOS等),逐步减少人工预设;4)纯数据驱动新范式(DETR系列),基于Transformer实现完全端到端检测。这一演进过程体现了从"人力设计"

GPU是通用并行计算主力,生态成熟,适合训练和云端推理。NPU是专用能效芯片,为边缘端低延迟场景设计。TPU是谷歌云端专用处理器,与TensorFlow深度集成。价格上,GPU和NPU可采购,TPU仅支持租赁。部署时,GPU代码相对通用,而NPU部署需将模型转换为专用格式并调用特定SDK,无法直接“翻译”GPU代码。开发者需根据云端/边缘、生态、能效和成本需求进行选择。

深度学习模型优化中的算子融合技术 算子融合是提升深度学习模型推理性能的关键技术,通过合并多个连续算子为单一复合算子,显著降低内存访问和调度开销。本文深入分析了算子融合的原理与实现: 性能瓶颈:揭示了内存墙(数据搬运速度远低于计算速度)和调度开销(内核启动成本高)两大核心问题 数学原理:以Conv-BN-ReLU为例,展示了如何通过数学等价变换将三个算子合并为一个,减少中间结果的内存存储 实现优势:

摘要: 知识蒸馏是一种将大型"教师"模型的知识迁移到轻量"学生"模型的技术,通过软标签传递类间关系等暗知识。其核心机制是温度调节的Softmax函数:训练时用较高温度T软化概率分布以提取知识,推理时恢复T=1。典型流程包括教师生成软标签、学生模仿软预测、组合蒸馏损失(KL散度)和学生损失(交叉熵)进行训练。主要应用包括模型压缩(如BERT→DistilBERT)、模型集成蒸馏和正则化。知识蒸馏实现

本文系统梳理了AI模型加速的三大维度:模型自身优化(剪枝、量化、知识蒸馏)、计算过程优化(算子融合、模型编译)和硬件系统优化(专用硬件加速、动态批处理)。通过组合这些方法,可以实现从模型"瘦身"到计算"飞驰"的完整加速路径。针对不同场景(云端/移动端)提供了优化建议,强调模型加速是一个需要平衡效率、成本和性能的系统工程。该知识图谱为AI模型落地提供了清晰的优化思路和技术路线。

本文深入探讨了神经网络模型量化技术,从系统视角揭示了量化在解决模型部署"不可能三角"(高精度、低延迟、低成本)中的核心作用。通过类比自动增益控制,阐述了量化通过有限比特最优分配实现信息保真的本质。详细解析了量化数学机理和计算流程,并分类介绍了训练后量化和量化感知训练等关键技术方案。文章还梳理了现代量化工具链和前沿趋势,包括低比特量化、混合精度等发展方向。最后指出量化不仅是工程优化手段,更是连接算法
文章摘要 模型剪枝技术通过剔除神经网络中的冗余参数,在保持精度的同时实现模型压缩。本文系统性地介绍了剪枝的核心理念与实现方法: 两种思维模式:自上而下的工程视角(目标导向)与第一性原理的数学视角(优化问题) 数学基础:剪枝与L1正则化一脉相承,通过约束参数数量实现稀疏性 核心流程:评估参数重要性→确定剪枝阈值→应用掩码→微调恢复 实现方法:包括全局剪枝和迭代式剪枝策略,配合微调保持模型性能 技术对
神经网络技术已形成视觉感知、序列建模、生成式AI、关系建模、表示学习和基础架构六大类别。视觉领域从CNN到Transformer实现局部到全局建模的跨越;序列处理完成RNN到Transformer的范式迁移;生成式AI通过GAN到扩散模型优化质量与效率;图网络突破结构感知瓶颈。基础架构如全连接网络演变为通用组件。核心创新机制(残差连接、自注意力)持续突破技术瓶颈,当前呈现专用化与融合化并行的趋势,








