
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
前几天还跟同事开玩笑说,DIN上面接一层Transformer,然后加一个Positional Encoding,然后再加Attention层,效果可能会好些。结果,今天就看到淘宝已经发出了相关的论文了,有一些地方还是没有想到的,咱们来一起看下。本文的论文名称为:《Behavior Sequence Transformer for E-commerce ...
文章作者:肖茁建博士 京东 算法工程师编辑整理:Hoh出品平台:DataFunTalk导读:商品搜索引擎是电商平台满足用户购物需求的一个重要系统,它根据用户输入的搜索词,返回个性化的排序列...
本文分享的论文题目是《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》论文地址:https://arxiv.org/abs/1803.02349在淘宝的推荐中,主要面临着三个技术挑战,分别是可扩展性(scalability)、稀疏性(sparsity)...
点击标题下「搜索与推荐Wiki」可快速关注▼相关推荐▼1、转化率预估中的贝叶斯平滑2、深度学习Keras中的Embedding层的理解与使用3、值得收藏|2020年度文章汇总,不容错过的精...
前几天还跟同事开玩笑说,DIN上面接一层Transformer,然后加一个Positional Encoding,然后再加Attention层,效果可能会好些。结果,今天就看到淘宝已经发出了相关的论文了,有一些地方还是没有想到的,咱们来一起看下。本文的论文名称为:《Behavior Sequence Transformer for E-commerce ...
在2013年DQN首次被提出后,学者们对其进行了多方面的改进,其中最主要的有六个,分别是:Double-DQN:将动作选择和价值估计分开,避免价值过高估计Dueling-DQN:将Q值分解为状态价值和优势函数,得到更多有用信息Prioritized Replay Buffer:将经验池中的经验按照优先级进行采样Multi-Step Learning:使得目标价值估计更为准确Distribution
上一篇中介绍了Bandit算法,并介绍了几种简单的实现,如 Epsilon-Greedy算法,Thompson sampling算法和UCB算法。但是传统的实现方法存在很大的缺陷,主要是缺乏用附加信息刻画决策过程的机制。今天的文章就来介绍一种结合上下文信息的Bandit方法,LinUCB,它是Contextual bandits算法框架的一种。本文的原文是雅虎的新闻推荐算法:https://a..
本来想写蚂蚁金服运用强化学习做推荐的文章《Generative Adversarial User Model for Reinforcement Learning Based Recommendation System》,但这不快放假了嘛,思考再三还是决定写点简单的吧。这次来谈谈负采样点击率修正的那些事。1、负采样点击率修正在广告点击率预估中,正负样本的比例是很不平衡的,所以有时候需要进行一定..
跟着李宏毅老师的视频,复习了下AC算法,新学习了下A2C算法和A3C算法,本文就跟大家一起分享下这三个算法的原理及tensorflow的简单实现。视频地址:https://www.bilibili.com/video/av24724071/?p=41、PG算法回顾在PG算法中,我们的Agent又被称为Actor,Actor对于一个特定的任务,都有自己的一个策略π,策略π通常用一个神经网络表示...
今天给大家介绍的是我们团队今年发表在WWW2022上的论文CrossDQN,提出了一种基于强化学习的信息流广告分配方法。这也是我个人在入职美团之后工作的主要方向。接下来我将对论文内容进行详细的介绍。1、信息流广告分配背景电商场景下的信息流通常包含两部分的内容,一类被称为自然结果,另一类是广告结果。二者以混合列表的形式展现给用户。如下图是工业界常见的混排系统的架构,广告和自...







