
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
斯坦福CS336课程第四讲深入解析了专家混合模型(MoE)的核心原理与技术实现。课程系统性地介绍了MoE的架构优势——通过稀疏激活专家网络实现参数量与计算量的解耦,在保持计算成本不变的同时大幅提升模型容量。重点剖析了路由机制设计、训练稳定性解决方案(如辅助损失、Z-Loss)、系统并行优化策略等关键技术挑战。特别以DeepSeek V3为例,详细拆解了其细粒度专家划分、共享专家设计、无损均衡创新等

本讲强调数据是大语言模型质量与差异化的核心护城河。训练数据大致分为预训练、中期训练与后训练:先用海量网络语料获得基础能力,再用高质量小规模数据强化数学、代码与长上下文,最后用指令微调与对齐数据产出可用的聊天模型。课程梳理了从 BERT 的书籍/维基、GPT‑2 的 WebText 到 Common Crawl 的主流过滤路线(规则过滤与模型分类过滤),以及 The Pile、书籍、代码等垂直数据的

斯坦福CS336课程第十一讲深入探讨了大模型缩放定律的工业实践与数学机制。重点分析了Cerebras-GPT、MiniCPM等开源案例,揭示了最大更新参数化(MUP)的关键作用:通过1/width缩放实现超参数迁移稳定性。课程还对比了传统余弦退火与新型WSD学习率策略的优劣,指出WSD的分段式设计能动态调整训练周期,极大降低了Scaling Laws验证成本。最新趋势显示,工业界正利用缩放定律优化

《斯坦福CS336课程:大模型评估的挑战与方法》摘要:本文深入探讨了语言模型评估的复杂性和现实挑战。评估不仅是测试模型性能的机械过程,更是影响研发方向的关键环节。课程详细分析了评估框架的四个核心环节(输入、模型调用、输出评估和结果解释),并介绍了困惑度等评估指标的优缺点。文章还探讨了各类基准测试(如MMLU、GPQA)的现状与局限,开放式生成评估的难题,以及智能体和安全性评估的特殊要求。特别指出当

网络应用就是运行在端系统上的程序,并通过网络与其他端系统上的程序通信。Web 浏览器和 Web 服务器社交网络即时消息电子邮件多人网络游戏YouTube、Netflix 等流媒体视频P2P 文件共享VoIP,例如 Skype实时视频会议,例如 Zoom搜索引擎远程登录注意,网络应用运行在end systems(端系统)上,而不是运行在网络核心设备上。也就是说:浏览器、Web 服务器、邮件客户端、视

在 SDN 中,路由器或者交换机不再主要负责复杂的路由计算,而是由远程控制器计算转发表,并把表项安装到设备中。控制逻辑从路由器中抽离出来;远程控制器具有全局视角;数据平面设备更像执行者;控制器通过 OpenFlow 等协议向交换机下发转发表。可以理解为:SDN 把网络“大脑”集中到控制器里,让交换机主要负责高速执行。注意,SDN 是,即逻辑集中,不一定物理上只有一台服务器。现实中的 SDN 控制器

这一章的主题是,也就是“锁、条件变量与信号量的设计”。前面几章我们已经学过进程、线程、上下文切换、地址空间、TLB、缓存、缺页异常和调度。并发同步。这章要解决的问题可以用一句话概括:多个线程共享数据时,调度器可能在任意时刻切换线程。程序怎样才能在任意调度顺序下都正确?如果只看单线程程序,代码通常是从上到下执行的。但是在多线程程序中,两个线程的指令可能交错执行;在多核机器上,它们甚至可能真正同时执行

第二讲的核心不是背启动流程,而是理解操作系统为什么必须和硬件合作。让普通操作直接执行,保证性能;让危险操作受控进入内核,保证安全;让 OS 能随时抢回 CPU,保证控制权。这就是第二讲最重要的主线。

操作系统是硬件和应用/用户之间的桥梁。更具体一点:操作系统是一个特殊的软件层,它管理应用程序对硬件资源的访问,例如 CPU、内存、磁盘、I/O 设备等。Users↓Applications: 浏览器、微信、Office、游戏、编译器↓↓Hardware Resources: CPU、GPU、内存、磁盘、网卡、键盘、鼠标、显示器为什么中间必须有 OS?不安全:一个程序可能随便读写别人的内存。不公平:

user code↓这可以叫 downcall,因为用户向下请求内核服务。kernel↓它允许应用程序实现一些类似 OS 的功能,然后由 OS 在合适的时候通知它。异步 I/O 通知:I/O 完成后通知用户程序进程间通信:调试器暂停某个进程用户级异常处理:程序退出前保存文件用户级资源管理:Java garbage collection所以用户态和内核态并不是只有“用户请求内核”这一种关系。有时候内








