logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【HarmonyOS NEXT】踩坑!Scroll中使用relativeContainer无法滚动问题

Scroll作为可滚动的容器类组件,它最多包含一个子组件,Scroll而。

#华为#harmonyos
【HarmonyOS NEXT】踩坑!Scroll中使用relativeContainer无法滚动问题

Scroll作为可滚动的容器类组件,它最多包含一个子组件,Scroll而。

#华为#harmonyos
如何理解强化学习大模型微调中RW模型和RL模型的损失函数

大语言模型微调中训练RL模型最常用的优化方法是近端优化算法(Proximal Policy Optimization, PPO)。RL损失函数本质上是在奖励模型打分、人类偏好约束和通用能力三者间平衡,既要输出优质答案,也不能偏离原有分布太远,还要保持通用能力。(3) 生成调优模型(Tuned Language Model, RL Policy)(2) 初始语言模型(Base Language Mo

文章图片
#机器学习#人工智能#算法 +2
如何理解强化学习大模型微调中RW模型和RL模型的损失函数

大语言模型微调中训练RL模型最常用的优化方法是近端优化算法(Proximal Policy Optimization, PPO)。RL损失函数本质上是在奖励模型打分、人类偏好约束和通用能力三者间平衡,既要输出优质答案,也不能偏离原有分布太远,还要保持通用能力。(3) 生成调优模型(Tuned Language Model, RL Policy)(2) 初始语言模型(Base Language Mo

文章图片
#机器学习#人工智能#算法 +2
Language Multi-modal Models (LMMs) 详解

大语言模型(LLMs)。这类模型通常基于 Transformer decode-only 架构,在海量无标注文本语料上进行预训练。其核心预训练任务是预测下一个 token,这一目标驱动着模型的学习过程。Lt1∑N​logPθ​xt1​∣x1t​其中,P代表大语言模型,θ是模型的可训练参数。训练目标是在给定前序 tokensx1t​x1​⋯xt​的条件下,最大化下一个 tokenxt1​出现的概率。

文章图片
#人工智能#算法
如何理解强化学习大模型微调中RW模型和RL模型的损失函数

大语言模型微调中训练RL模型最常用的优化方法是近端优化算法(Proximal Policy Optimization, PPO)。RL损失函数本质上是在奖励模型打分、人类偏好约束和通用能力三者间平衡,既要输出优质答案,也不能偏离原有分布太远,还要保持通用能力。(3) 生成调优模型(Tuned Language Model, RL Policy)(2) 初始语言模型(Base Language Mo

文章图片
#机器学习#人工智能#算法 +2
DeepSeek Sparse Attention(DSA)快速洞察(DeepSeek-V3.2)

DeepSeek-V3.2 技术报告中提到的是一种旨在提升上下文处理效率的稀疏注意力机制。

文章图片
#人工智能#DeepSeek
【HarmonyOS NEXT】超简单方法实现Text组件展开/收起

笔者在学习时发现网上很多方法实现的Text组件展开/收起效果比较复杂,且涉及到计算,于是查阅了相关文档,尝试通过Text组件自带的属性函数实现需求,以下为解决方案:

文章图片
#harmonyos#华为
【HarmonyOS Next】如何实时监控Scroll组件水平方向滚动偏移量

运用Scroll组件事件onDidScroll实现实时监控水平方向滚动偏移量,并且提供了onDidScroll正常使用说明

文章图片
#harmonyos#华为
【HarmonyOS NEXT】HarmonyOS自带的icon图标库如何使用

如何使用HarmonyOS NEXT自带的图标库,并且附上导入外部字体图标ttf的方法

文章图片
#harmonyos#华为
    共 13 条
  • 1
  • 2
  • 请选择