logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习进阶(二十七)现代 LLM 的核心架构设计其二:SwiGLU

中做了一个系统的实验:把标准 FFN 替换成各种 GLU 变体,看门控激活函数选哪个最好,而 SwiGLU 表现最好,也由此在后续的实践中逐渐发扬光大。原理也很清晰:FFN 可以学习特征的重要性,在训练过程中,权重矩阵 �1 和 �2 会不断调整,从而让网络自动学会哪些模式更值得关注。Sigmoid 门控本身是很符合我们的现实逻辑的,但在后续的实践中,研究者们却发现它其实不一定是最优选择。GELU

#深度学习#人工智能
AI最大的误解:LLM实际上并不会调用工具

但事实并非如此。真相是:这是 AI 工程中最重要的概念之一。LLM 只做一件事:生成下一个 token。就这样。只会生成文本。把 GPT 想象成一个被锁在房间里的非常聪明的人。这个人可以:这个人不能:这个人唯一能做的,就是在纸上写下指令。这就是 LLM 的工作方式。用户问:大多数人想象的是:现实:GPT 首先生成类似这样的内容:注意一个重要的事情。GPT 并没有调用天气 API。GPT 仅仅是生成

#人工智能#oracle#数据库
gpustack

MiniMax-M3 是 MiniMax 最新开源的原生多模态大模型,约 428B 总参数 / 23B 激活参数,原生支持 1M 上下文。本文基于 GPUStack 与 vLLM,演示从镜像与权重准备、模型部署、对话实测到基准测试的完整流程,并实测了基于 EAGLE3 的投机解码加速。于宣布 MiniMax-M3 正式发布,并在于与上正式开源权重。MiniMax-M3 是一款大模型,采用,约,原生

#symfony
到底了