logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Hugging Face Transformers 模型加载与任务头使用完整指南

Hugging Face的AutoModel提供统一接口加载不同架构的预训练模型,支持文本分类、序列标注、问答等多种任务。具体模型适用于特定架构,而AutoModel根据配置自动选择对应模型,具有更好的通用性。使用时需注意模型与任务头的兼容性,如BERT支持分类和NER,GPT适用于生成任务。推荐优先使用AutoModel,通过tokenizer处理输入后直接调用模型。根据任务类型(分类、生成等)

#深度学习#python#AIGC
深度学习模型量化:从理论到实战

模型量化技术概述 模型量化是将深度学习模型从高精度浮点参数转换为低精度整数的技术,主要包括后训练量化(PTQ)和量化感知训练(QAT)两种方式。PTQ无需重新训练,适合快速部署;QAT通过训练过程模拟量化,精度损失更小但成本更高。量化可显著减小模型体积(FP32→INT8缩小4倍)、提升推理速度(2-4倍)并降低功耗。关键技术包括均匀/非均匀量化、对称/非对称量化等,实际应用中需根据模型类型(LS

#深度学习#人工智能
大模型微调技术全景:从思想到实践

《大模型微调技术全景指南》摘要 本文系统阐述了大模型微调的技术体系,分为三个层级:顶层设计提出"提示导向微调"思想,强调通过输入提示而非参数更新来引导模型;中层策略详细介绍了6种提示设计与工程方法,包括硬/软提示、PET、思维链等;底层技术则聚焦参数高效微调(PEFT),深入解析LoRA、Prompt-Tuning等5种核心技术的原理与实现。全文构建了从思想到实践的完整技术框架

#深度学习
Conda与Pip使用指南:核心原则与避坑技巧

摘要:本文档系统梳理了conda和pip的使用边界与最佳实践。核心原则是优先使用conda安装科学计算核心库和系统级依赖,用pip安装纯Python项目包。强调base环境应仅作为管理平台,避免安装项目依赖包。提供了详细的判断流程和风险提示,推荐创建独立项目环境并规范使用mamba工具。最后给出常用命令速查表和"三句话原则":conda管核心系统环境,pip管项目PyPI包;b

#pip#conda
模型蒸馏深入理解

模型蒸馏(Knowledge Distillation, KD)是一种将一个复杂的教师模型(Teacher Model)所学到的知识,迁移到一个更小、更高效的学生模型(Student Model)的技术。知识迁移目标:用小模型逼近大模型性能,实现轻量化 + 高精度项目内容核心思想教师模型的知识迁移到学生模型关键技术温度调节、KL 散度、软标签主要方法软标签蒸馏、特征蒸馏、自蒸馏优势提升小模型精度,

#机器学习#深度学习#人工智能
到底了