logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【2】LLM篇 事无巨细!手把手带你用transformer做一个中英翻译模型从原理到实战一网打尽

用更加独特的视角带你理解transformer的架构,并且手把手带你做一个中英文翻译模型。让你彻底吃透transformer!!!

文章图片
#transformer#深度学习#人工智能
【1】LLM篇 事无巨细!手把手带你用transformer做一个中英翻译模型从原理到实战一网打尽

本文介绍了语言模型处理文本的基本流程,重点讲解了分词器(Tokenizer)的原理和实现。首先解释了三种分词方式:词级别、字符级别和子词级别,并推荐使用BPE算法实现的子词分词。通过示例展示了BPE如何统计合并高频字符对来构建词表,并提供了sentencepiece库的代码实现。接着说明了数据处理的关键步骤:使用特殊token对齐序列长度,以及训练时输入和标签的错位对齐方式。最后总结了大模型处理文

文章图片
#transformer#语言模型#机器翻译 +1
一文搞懂!深度学习可视化工具netron,只讲干货和操作,必须狠狠收藏

快速上手netron工具,帮助你可视化自己的模型,了解内部结构。然后魔改自己模型写出自己第一篇毫无营养的论文。

文章图片
#深度学习#人工智能
一文搞懂!模型量化到底是什么?基于Qualcomm AI Engine Direct SDK 从原理到安装再到实战[上:原理的讲解]

快速搞懂模型量化是什么,从原理讲起,最终实战。摆脱不知道模型训练完之后干什么的困境

文章图片
#人工智能
到底了