hyq10201 个人主页

@hyq10201

hyq10201

2023-07-18 10:43:23 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

知识蒸馏（Knowledge Distillation）完全指南：原理、实践与进阶

知识蒸馏是一种模型压缩技术，通过让轻量级"学生模型"模仿高性能"教师模型"的输出行为，在保持小体积和低延迟的同时获得接近大模型的能力。其核心在于利用教师模型输出的软标签（包含类别间相似性信息）而非传统硬标签来训练学生模型，通过温度参数T控制软标签平滑度，并结合KL散度和交叉熵损失函数。典型流程包括教师模型训练、软标签生成、学生模型训练和部署。知识蒸馏可与量化

#transformer #深度学习 #人工智能

从流程到落地：手把手解析一个完整的BERT文本分类项目

本文解析了一个基于BERT的中文文本分类项目架构，涵盖从数据准备到服务化的完整流程。项目采用模块化设计，包含模型定义、训练、预测和API服务等核心组件：1) 通过config.py集中管理参数；2) 使用bert_classifier_model.py构建BERT+线性分类头的模型；3) train.py实现训练流程；4) predict_fun.py封装预测功能；5) 通过Flask提供REST

#人工智能 #transformer #bert

Transformer入门知识

摘要：Transformer架构彻底改变了自然语言处理领域，解决了传统RNN存在的长距离依赖和无法并行计算问题。其核心是自注意力机制，通过查询、键、值向量计算词间相关性，并采用多头注意力增强表达能力。Transformer还包含残差连接、层归一化和前馈网络等关键组件。这种架构支持并行计算，具有全局感受野，可解释性强且易于扩展。如今BERT、GPT等主流大模型都基于Transformer，使其成为N

#transformer #深度学习 #人工智能

到底了