
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文为阅读论文 Understanding the planning of LLM agents: A survey 后的论文理解,仅自留使用,欢迎交流。
生成式召回:无需预构建索引,直接通过模型生成与查询相关的候选结果本节讨论三个主要内容:一是生成式召回,延续SASRec的思路但在输入和输出上进行深度创新;二是生成式排序,将生成范式引入传统的排序阶段;三是端到端统一生成,试图用单一模型完成从召回到排序的全流程。

Qwen2.5技术报告解读,自留使用,欢迎交流。

关键词增强的层次量化编码(KHQE)模块:在保持强查询-商品相关性约束的前提下,同时保留层次化语义和商品的区分性属性,利用的是RQ-OPQ(残差量化+优化乘积量化)的组合方案。RQ负责层次化语义:第一层编码大类(服装),第二层编码子类(连衣裙),第三层编码细节(颜色、款式)OPQ负责独特特征:保留每个商品的独特属性,避免信息损失关键词增强:通过NER识别18种结构化属性(品牌、材质、风格等),确保

但是在多场景建模中,样本只在相同的场景内才满足独立同分布,多个场景混合的样本得到的统计量会忽略了不同场景独有的分布差异。1. EPNet:场景感知的嵌入个性化在共享的底层 Embedding 的基础上,引入一个带有场景先验信息的门控(Gate)机制,以极低的额外参数量,实现 Embedding 层的场景差异化和个性化。本节讨论基于多塔结构的多场景建模方案,构建物理隔离的参数塔,分而治之,为不同场景
Qwen Technical Report 技术报告解读,自留使用,欢迎交流。

网上有些代码的例子的库已经更新了组织结构,导入的时候有点麻烦要改一下。
不足:每个 worker 必须同时存储并运行的各个 micro-batch 的激活值,导致流水线第一阶段的激活内存与单个 mirco-batch 的总激活内存大致相同。流水线并行的核心思想是:在模型并行的基础上,进一步引入数据并行的办法(将模型的各层划分为可以并行处理的阶段),即把原先的数据再划分成若干个batch,送入GPU进行训练。优势:流水线并行减少的显存与流水线的阶段数成正比,这使模型的大
开篇提出,目前的大部分推荐系统还是按照多级级联结构(multi-stage cascaded architecture)比如召回-精排-重排)的方式而不是端到端的方法 -> 通信存储计算的碎片化,,每个阶段的优化目标不一致,传统推荐系统不能跟上ai演化的脚步OneRec 的关键就在于:把检索和排序等所有阶段融合进同一个生成式模型,让系统能够一次性的学习并生成推荐结果。

自留学习使用







