tZ37GLO03 个人主页

@tZ37GLO03

tZ37GLO03

2026-06-20 08:32:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习进阶（二十七）现代 LLM 的核心架构设计其二：SwiGLU

中做了一个系统的实验：把标准 FFN 替换成各种 GLU 变体，看门控激活函数选哪个最好，而 SwiGLU 表现最好，也由此在后续的实践中逐渐发扬光大。原理也很清晰：FFN 可以学习特征的重要性，在训练过程中，权重矩阵 �1 和 �2 会不断调整，从而让网络自动学会哪些模式更值得关注。Sigmoid 门控本身是很符合我们的现实逻辑的，但在后续的实践中，研究者们却发现它其实不一定是最优选择。GELU

#深度学习 #人工智能

AI最大的误解：LLM实际上并不会调用工具

但事实并非如此。真相是：这是 AI 工程中最重要的概念之一。LLM 只做一件事：生成下一个 token。就这样。只会生成文本。把 GPT 想象成一个被锁在房间里的非常聪明的人。这个人可以：这个人不能：这个人唯一能做的，就是在纸上写下指令。这就是 LLM 的工作方式。用户问：大多数人想象的是：现实：GPT 首先生成类似这样的内容：注意一个重要的事情。GPT 并没有调用天气 API。GPT 仅仅是生成

#人工智能 #oracle #数据库

gpustack

MiniMax-M3 是 MiniMax 最新开源的原生多模态大模型，约 428B 总参数 / 23B 激活参数，原生支持 1M 上下文。本文基于 GPUStack 与 vLLM，演示从镜像与权重准备、模型部署、对话实测到基准测试的完整流程，并实测了基于 EAGLE3 的投机解码加速。于宣布 MiniMax-M3 正式发布，并在于与上正式开源权重。MiniMax-M3 是一款大模型，采用，约，原生

#symfony

到底了