
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
DeepSeek的“遗言”和一些系统化解析
最近DeepSeek爆火,常见标题如:这几个因素叠加,等于是来自中国的物美价廉的好产品。一时间全世界震惊,信息爆炸,难辨真假。作为从业多年的技术人员,禁不住一探究竟。1. 取得了什么突破2. 在这个全员大模型的时代,为什么做到了,为什么之前没人做到过3. 昙花一现还是新的时代

Transformer学习笔记-注意力机制到底在做什么,Q/K/V怎么来的
Transformer学习笔记-注意力机制到底在做什么,Q/K/V怎么来的

DeepSeek的“遗言”和一些系统化解析
最近DeepSeek爆火,常见标题如:这几个因素叠加,等于是来自中国的物美价廉的好产品。一时间全世界震惊,信息爆炸,难辨真假。作为从业多年的技术人员,禁不住一探究竟。1. 取得了什么突破2. 在这个全员大模型的时代,为什么做到了,为什么之前没人做到过3. 昙花一现还是新的时代

到底了







