logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM: 从0搭建LLM(基于 LLaMA2)Pretrain和SFTtrain

参考教程从0搭建LLM(基于LLaMA2)

文章图片
LLM中MoE: 混合专家模型

MoE模型就是:把一个巨大的全能大脑,拆分成了一个由“分诊台”指挥的“专家团队”。它让AI变得更博学(总参数量大),同时又保持了反应灵敏(实际计算量小)。这就是为什么现在的顶尖大模型都在往MoE方向发展的原因!怎么样,这样解释是不是好理解多了?MoE的训练其实就是在“让专家学好”和“让大家都有活干”之间找平衡。没有预设标签:专家擅长什么,是自己“卷”出来的,不是人指定的。路由器也要学:不仅要训专家

LLM中分组查询注意力机制(Grouped-Query Attention, GQA)

模式全称结构 (Q : KV)显存占用效果 (智商)代表模型MHA1 : 1(很多头对很多KV)巨大 (贵)⭐⭐⭐⭐⭐MQAN : 1(很多头对1个KV)极小 (省)⭐⭐⭐StarCoderGQAN : M(分组共享)适中⭐⭐⭐⭐✨LLaMA-2/3, MistralGQA 就是在**“效果”和“速度/显存”**之间找到的最佳平衡点。现在的开源大模型如果不发 GQA,出门都不好意思跟人打招呼。

Three.js 快速开发 da 1

这不是完整教程,更像笔记参考 Three.js Essentials这本书,有很多地方直接复制翻译的内容Three.js 的函数有有用到异步加载,当制作复杂的3d视图有加载本地图片及其他文件时应该建立本地服务器,否则直接运行html文件时浏览器会提示加载错误:XMLHttpRequest cannot load file:///F:/phptools/Apache2.2/htdocs/t

#html#webgl#3d
离散余弦变换推导(DCT、IDCT)

待填参考详解离散余弦变换(DCT)

论文笔记:Fully Convolutional Networks for Semantic Segmentation(FCN)

一、基本信息标题:Fully Convolutional Networks for Semantic Segmentation时间:2015出版源:CVPR论文领域:计算机视觉、CNN、FCN、语义分割引用格式:链接:二、研究背景三、创新点四、实验结果五、结论与思考作者结论总结思考参考...

论文笔记:You Only Look Once: Unified, Real-Time Object Detection(yolo v1)

一、基本信息标题:You Only Look Once: Unified, Real-Time Object Detection时间:2016引用格式:Redmon, Joseph, et al. “You only look once: Unified, real-time object detection.” Proceedings of the IEEE conference on comp

#目标检测#深度学习#cnn
最小二乘与仿射变换(附js代码)

伪逆矩阵和最小二乘估计相关性质矩阵的逆、伪逆、左右逆,最小二乘,投影矩阵https://blog.csdn.net/baidu_38172402/article/details/82931879?utm_medium=distribute.pc_relevant.none-task-blog-title-2&spm=1001.2101.3001.4242伪逆矩阵(广义逆矩阵https://

论文笔记:Deep Residual Learning for Image Recognition(ResNet)

一、基本信息标题:Deep Residual Learning for Image Recognition时间:2015第一作者:Kaiming He论文领域:深度学习、计算机视觉、CNN引用格式:He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE

笔记:ML-LHY-23: Deep Reinforcement Learning

Scenario of Reinforcement Learning强化学习大致流程强化学习:输入:Observation(State)Actor/Policy 产生Action输出:Action (改变环境)环境反馈 RewardPolicy-based Approach参照机器学习3个步骤:Step 1: define a set of function (Neural network as

    共 14 条
  • 1
  • 2
  • 请选择