logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

004、实战第一步:使用Hugging Face快速调用与评测大模型

今天有个同事跑来找我,说本地部署的某个开源模型跑起来效果不对劲,输出全是乱码。我让他把代码发我看一眼,结果发现他用了三年前的旧接口写法,连tokenizer都没对齐——这类问题在新手阶段太常见了。我们就从Hugging Face这个“模型超市”入手,聊聊怎么快速、靠谱地调用和评测大模型,避开那些初期容易踩的坑。

#人工智能
003、大模型原理初探:Transformer架构与注意力机制详解

上周在调试一个中文对话模型时,遇到个怪事:输入“我喜欢北京的春天和上海的秋天”,模型生成的回复里总把“北京”和“上海”搞混。实际调试时你会发现,有的头专盯局部语法(比如动词和宾语的搭配),有的头负责长距离指代(比如“它”指代前面哪个名词)。那个掩码注意力值得多说一句:训练时,解码是并行的(整个目标序列一次输入),但每个位置只能看到它之前的位置。因为它能天然地表示相对位置——位置12和位置13的编码

#transformer#深度学习#人工智能
002、开发环境筑基:Python、PyTorch与CUDA环境全攻略

他沮丧地说:“明明按照官网教程装的CUDA 11.8和PyTorch 2.0,怎么一跑模型就崩了?”我让他执行了句,返回值是(7, 5)——RTX 30系显卡。问题浮出水面:他装的PyTorch是CUDA 11.7编译的旧版本,不支持30系的安培架构。这个场景太典型了,环境配置的坑,往往从第一个命令就开始埋下。

#python#pytorch#开发语言
到底了