
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
BCQ 和 CQL 从不同角度解决了离线 RL 的 “分布偏移” 和 “过度乐观” 问题:BCQ 靠 “物理隔离” 陌生动作保证安全,适合对稳定性要求极高的场景;CQL 靠 “价值打压” 让策略主动回避陌生动作,更适合动作空间大、数据复杂的场景。

重置门负责筛选历史信息,帮助模型关注 "当前相关" 的历史内容。更新门负责平衡新旧信息,帮助模型在 "记忆" 和 "遗忘" 之间找到平衡点。
核心思想将不同的卷积层通过并联的方式结合在一起,经过不同卷积层处理的结果矩阵在深度这个维度拼接起来,形成一个更深的矩阵。通过这种方式对网络的深度和宽度进行高效扩充,在提升深度学习网络准确率的同时防止过拟合现象的发生。结构特点多尺度卷积核:通常使用 1×1、3×3、5×5 等不同尺寸的卷积核,增加了网络对不同尺度的适应性。小卷积核(如 1×1)可捕捉精细细节并降维,大卷积核(如 3×3、5×5)有助
是 2012 年由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 提出的深度卷积神经网络(DCNN),它在当年的 ImageNet 大规模视觉识别挑战赛(ILSVRC)中以。:通过卷积和汇聚逐步减小空间尺寸(224→55→27→13→6),同时增加通道数(3→96→256→384→256): 为目标检测(R-CNN)、语义分割(FCN)、人脸识别
质量过滤确保数据 “有用”,冗余去除确保数据 “精简”,隐私消除确保数据 “合规”,词元切分确保数据 “可输入模型”。数据处理就是:先挑好的,再去重,擦隐私,最后拆成小块。

1.1、基于价值的方法(Value-based Methods):先算 “好处”,再选行动想象你在玩一款闯关游戏,每一步选择(比如往左走、往右走、打怪)都会影响你最终能不能通关、能拿多少分。基于价值的方法会先给每个 “局面” 打分 —— 这个分数代表 “在这个局面下,只要好好玩,最后能得到的好处有多大”。在当前局面下,选那些能让你进入 “更高分局面” 的行动。现在你面前有两条路,左边的路对应的 “

仅考虑单个词元的概率,忽略词与词之间的依赖关系,假设每个词的出现是独立的。
DQN(Deep Q-Network),即深度 Q 网络,是强化学习领域中一个非常经典且具有开创性的算法。它将深度学习和 Q 学习相结合,用于解决状态空间和动作空间较大的问题。在强化学习里,有智能体、环境、状态、动作、奖励这些关键元素。可以把智能体想象成一个游戏玩家,环境就是游戏世界,状态是游戏玩家当前所处的局面,动作是玩家可以采取的操作,奖励则是执行动作后获得的分数或者惩罚。

ResNet 通过残差块让网络学习 “残差” 而非直接学习输出,使优化更简单 —— 当网络需要拟合恒等映射(即输入等于输出)时,只需让 \(F(x) = 0\) 即可,避免了复杂的参数调整。: 当网络深度增加时,跳跃连接允许模型 “选择” 是否使用中间层的输出(若中间层学习的残差为 0,则\(y = x\),相当于直接传递输入,避免过度拟合)。当输入通道数(3)与输出通道数(6)不同时,直接做残差
RMSNorm:给数据 “定规矩”,让模型训练更稳定,计算更快;SwiGLU:带 “智能开关”,让模型更灵活地抓重点,学习复杂语言模式;RoPE:用 “旋转魔法” 给词加位置标签,让模型更懂词的顺序和相对关系。看例子(数据处理):把文本拆成字符,建立字符和数字的对应。练基础(模型搭建):用 Transformer 和 LLaMA 的核心技术,让模型能理解字符的关系和位置。反复练(训练):通过预测下








