logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【CS336】Lecture 02: 模型训练基础与资源核算

1. tensor是深度学习的基础,需熟练掌握其创建、存储、操作和设备迁移;2. 内存核算需关注浮点类型(float32/bf16/fp8)的取舍,计算量核算核心是矩阵乘法的FLOPs;3. Einops简化tensor维度操作,提升代码可读性;4. MFU是衡量硬件利用率的核心指标,优化MFU是提升训练效率的关键。

#语言模型#python#pytorch
【CS336】Lecture1课程讲义-语言模型发展历程&Tokenization概念

斯坦福从头构建大模型课程cs336第一讲内容,讲解大模型发展历史、课程作业安排、tokenization

#语言模型#人工智能#自然语言处理
大语言模型的后训练与“灾难性遗忘”问题——李宏毅2025大模型第六讲笔记

当你看到这样一个新闻:“某实验室/公司喜报:使用某开源基座模型Q,经过后训练得到模型Q',Q'在数学编程领域的得分超过Q。” 请思考,Q'真的超过了Q吗?学习本节课,你将了解什么是后训练,为什么后训练会导致模型灾难性遗忘,如何避免模型遗忘知识。

文章图片
#语言模型#人工智能
推理模型的下一步:别让模型想太多——李宏毅2025大模型第八讲笔记

上一讲我们提到,推理模型的挑战在于:冗长的推理过程造成模型低效和高的推理成本。本文会按照“问题 → 解法 → 落地” 三个步骤记录,不让模型想太多的方法。

文章图片
DeepSeek 11篇关键论文及要点,DeepSeek为什么能做到成本降低

DeepSeek 2024年1月至2025年1月,技术演进摘要。基座模型(DeepSeek LLM、DeepSeek MoE、DeepSeek-V2、DeepSeek-V3);推理模型(DeepSeek-Coder、DeepSeek-Coder-V2、DeepSeek-Math-Shepherd、DeepSeek-Math、DeepSeek-Prover、DeepSeek-Prover-V1.5、

文章图片
#算法#人工智能#机器学习
6个要点了解transformer(附源码)!李宏毅大模型2025课程作业3

本文探讨了大型语言模型在多个关键方面的表现特性:1. 模板格式对输出质量的影响分析显示,使用适当的对话模板能显著提升回答的相关性。2. 多轮对话测试,证实模型能有效记忆上下文。3. 通过tokenization分析展示了文本如何被拆分为子词单元。4. 不同采样策略对比实验表明,不同采样方式对模型输出的多样性有影响。5. 词嵌入可视化证实语义相近的词在向量空间中距离更近。6. 注意力机制分析揭示

文章图片
#transformer#深度学习#人工智能
一文搞懂AI Agent原理——李宏毅2025第二讲笔记

AIAgent是指能自主完成人类设定目标的智能体,其核心能力包括:1)基于记忆的经验调整,通过读写模块实现记忆管理;2)工具使用能力,可调用搜索引擎、编程接口等多类工具;3)动态计划能力,能根据环境变化调整行动计划。当前AIAgent已从专用系统(如AlphaGo)发展为通用型智能体,支持语音交互等更自然的交互方式,且无需专门训练模型即可运作。未来发展趋势包括更复杂的记忆机制、工具自主选择及动态计

文章图片
#人工智能#语言模型#机器学习
大语言模型的后训练与“灾难性遗忘”问题——李宏毅2025大模型第六讲笔记

当你看到这样一个新闻:“某实验室/公司喜报:使用某开源基座模型Q,经过后训练得到模型Q',Q'在数学编程领域的得分超过Q。” 请思考,Q'真的超过了Q吗?学习本节课,你将了解什么是后训练,为什么后训练会导致模型灾难性遗忘,如何避免模型遗忘知识。

文章图片
#语言模型#人工智能
Transformer 架构的演进与未来方向(RNN → Self-Attention → Mamba)——李宏毅大模型2025第四讲笔记

一句话总结——“所有架构都为了解决上一代模型的致命缺陷而生:CNN 解决参数爆炸,ResNet 解决梯度消失,Transformer 解决 RNN 无法并行,而 Mamba 则试图一次解决 Transformer 的 O(N²) 与 RNN 的记忆瓶颈。”

文章图片
#transformer#rnn#深度学习
安德鲁·卡帕西:深入探索像ChatGPT这样的大语言模型

本文总结了安德鲁·卡帕西关于大语言模型的核心观点。大模型训练分为三个阶段:预训练(学习语料)、监督微调(学习对话)和强化学习(优化输出)。预训练包括数据处理、token化和神经网络参数调整;监督微调通过对话数据集教会模型应答;强化学习则让模型自主优化答案质量。文章还探讨了模型特性(如幻觉、记忆方式)和发展方向(多模态、任务代理等),并提供了相关资源链接。这种分阶段训练方法使大模型能逐步掌握从知识积

文章图片
#语言模型#人工智能
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择