logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

论文笔记:SLMRec: Distilling Large Language Models into Small for Sequential Recommendation

本文提出轻量化推荐模型SLMRec,针对LLM在推荐任务中存在的层间冗余问题进行研究。实验发现:(1)LLM中8-24层性能提升有限;(2)仅使用前2层的轻量模型E4SRec2即优于传统SASRec,得益于更大的隐层维度和预训练权重。提出的SLMRec通过多粒度知识蒸馏(L2范数对齐和中间监督损失)压缩模型,在保持接近7B级LLM性能的同时,训练/推理速度提升6.6/8.0倍。该方法为高效推荐系统

文章图片
#论文阅读#语言模型#人工智能
论文略读:If Multi-Agent Debate is the Answer, What is the Question?

多智能体辩论(MAD)方法旨在通过多智能体辩论提升大模型推理效果,但实验表明其在36种配置中胜率不足20%,表现不如单智能体Chain-Of-Thought方法。研究提出Heter-MAD改进方案,通过引入异构模型智能体(无需修改框架结构),显著提升了MAD性能,最高达30%。实验覆盖5种MAD框架、9个数据集和4种基础模型,证实了模型多样性对协作效果的关键作用。

文章图片
#论文阅读
论文略读:OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures?

《OpenRCA:评估大语言模型软件故障根因分析能力的新基准》摘要 本文提出OpenRCA评估框架,聚焦大语言模型(LLMs)在软件故障根因分析(RCA)中的应用。针对当前LLM研究过度集中于开发阶段而忽视运维阶段的现状,该研究构建了包含335个企业级故障案例和68GB遥测数据(日志、指标、追踪)的基准数据集。实验发现,即使最佳模型Claude3.5结合专用RCA-agent,故障解决率也仅为11

文章图片
#语言模型#人工智能#自然语言处理
强化学习笔记:不完全观测问题

1 不完全观测问题像war3,dota之类的游戏,当前屏幕上的画面并不能完全反映出实际游戏的状态,因为观测只是地图的一小部分,屏幕上当前的画面也不能完整地反映出游戏的状态【比如屏幕上没有敌方单位,其实都在屏幕外蹲你。。。】如果仅仅用t时刻的观测来作决策,那么是会偏离实际的。但是我们又无法知道完整的。这就是不完全观测问题了。对于不完全观测的强化学习问题,应当记忆过去的观测,用所有已知的信息做决策。比

unsloth 笔记:从最近的检查点继续微调

【代码】unsloth 笔记:从最近的检查点继续微调。

强化学习笔记:马尔可夫决策过程 Markov Decision Process(MDP)

1 MDP介绍相比于马尔可夫奖励过程,马尔可夫决策过程就过了一个decision,其他的定义和马尔科夫奖励过程类似的。MRP见:强化学习笔记:马尔可夫过程 &马尔可夫奖励过程_UQI-LIUWJ的博客-CSDN博客MDP里多了一个决策,多了一个动作。状态转移也多了一个条件,变成了。采取某一种动作,未来的状态会不同。未来的状态不仅是依赖于你当前的状态,也依赖于在当前状态 agent 采取的这

#深度学习#html
强化学习笔记:AlphaGo(AlphaZero) ,蒙特卡洛树搜索(MCTS)

围棋的棋盘是 19 × 19 的网格,可以在两条线交叉的地方放置棋子,一共有 361 个可以放置棋子的位置,因此动作空间是 A = {1,· · , 361}。比如动作 a = 123 的意思是在第 123 号位置上放棋子。 于是我们便有了类似的策略网络和价值网络和人类下棋类似,AlphaGo在做决策前,需要在“大脑里”做预判,确保几步以后很可能会占优势。如果只根据当前格局做判断,不往前看,是很难

强化学习笔记:强化学习的约束

再举几个例子。AlphaGo Zero 用了 2 千 9 百万局自我博弈,每一局约有 100 个状态和动作。TD3 算法 在 MuJoCo 物理仿真环境中训练 Half-Cheetah、Ant、Hopper 等模拟机器人,虽然只有几个关节需要控制,但是在样本数量 100 万时尚未收敛。甚至 连 Pendulum、Reacher 这种只有一两个关节的最简单的控制问题,TD3 也需要超过 10 万 个

强化学习笔记:分层强化学习

1 传统强化学习的不足 & 为什么需要分层强化学习?传统的强化学习方法会面临维度灾难的问题,即当环境较为复 杂或者任务较为困难时,agent的状态空间过大,会导致需要学习的参数以及所需的存储空间急速增长,强化学习难以取得理想的效果。为了解决 维度灾难,研究者提出了分层强化学习(hierarchical reinforcement learning,HRL)。HRL的主要目标是将复杂的问题分

    共 306 条
  • 1
  • 2
  • 3
  • 31
  • 请选择