
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
Transformer总结
俩个小技巧Add&Norm:残差连接与正则化 将输入与输出连接(防止梯度消失)与改变输入在均值为0方差为1的分布(防止梯度消失与爆炸的问题)BPE(Byte Pair Encoding,字节对编码)是一种常用的子词分词算法,在自然语言处理(NLP)中用于将文本分割成更小的单位。多头注意力机制Multi-Attention与前馈Feed Forward(两层的MLP(多层感知机(输入层-隐藏层-输出

DeepSeek
简单介绍:成立时间:DeepSeek23年7月份,技术:数据蒸馏技术背景:知名私募巨头幻方量化孕育而生24年1月发布,同月发布。2月,发布。3月,发布。5月,发布。6月,发布。9月,更新 API 支持文档,宣布合并DeepSeek Coder V2 和 DeepSeek V2 Chat,推出。12月,发布。同月正式上线DeepSeek-V3首个版本并同步开源。25年1月20号,发布数据蒸馏技术Mi

Deepseek:从入门到精通(清华)文档
AIGC评测 独具匠心的提示词 提示语链

DeepSeek:入门到精通(清华)文档的讲解与学习
本文章主要讲解提示语关键策略 提示语常见错误以及如何解决作为刚使用提示语的人员应先具备的思维和使用方法,并介绍AI幻觉以及五种类别七种特征

DeepSeek:入门到精通(清华)文档的讲解与学习
提示词,推理与通用模型

到底了







