logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer总结

俩个小技巧Add&Norm:残差连接与正则化 将输入与输出连接(防止梯度消失)与改变输入在均值为0方差为1的分布(防止梯度消失与爆炸的问题)BPE(Byte Pair Encoding,字节对编码)是一种常用的子词分词算法,在自然语言处理(NLP)中用于将文本分割成更小的单位。多头注意力机制Multi-Attention与前馈Feed Forward(两层的MLP(多层感知机(输入层-隐藏层-输出

文章图片
#人工智能#transformer#深度学习 +2
DeepSeek

简单介绍:成立时间:DeepSeek23年7月份,技术:数据蒸馏技术背景:知名私募巨头幻方量化孕育而生24年1月发布,同月发布。2月,发布。3月,发布。5月,发布。6月,发布。9月,更新 API 支持文档,宣布合并DeepSeek Coder V2 和 DeepSeek V2 Chat,推出。12月,发布。同月正式上线DeepSeek-V3首个版本并同步开源。25年1月20号,发布数据蒸馏技术Mi

文章图片
#人工智能#深度学习#nlp +4
Deepseek:从入门到精通(清华)文档

AIGC评测 独具匠心的提示词 提示语链

文章图片
#人工智能#经验分享#AIGC +3
DeepSeek:入门到精通(清华)文档的讲解与学习

本文章主要讲解提示语关键策略 提示语常见错误以及如何解决作为刚使用提示语的人员应先具备的思维和使用方法,并介绍AI幻觉以及五种类别七种特征

文章图片
#学习#人工智能#深度学习 +4
DeepSeek

简单介绍:成立时间:DeepSeek23年7月份,技术:数据蒸馏技术背景:知名私募巨头幻方量化孕育而生24年1月发布,同月发布。2月,发布。3月,发布。5月,发布。6月,发布。9月,更新 API 支持文档,宣布合并DeepSeek Coder V2 和 DeepSeek V2 Chat,推出。12月,发布。同月正式上线DeepSeek-V3首个版本并同步开源。25年1月20号,发布数据蒸馏技术Mi

文章图片
#人工智能#深度学习#nlp +4
到底了