实时检测机器人广告点击的深度学习技术
机器人广告点击检测是指判断电商网站上的广告点击是由人类还是软件代理发起的任务。其目标是确保广告主的营销活动不会为机器人行为付费,同时避免误判人类点击。该系统需要实时运行,以最小化对广告主体验的干扰,并具备可扩展性、全面性、精确性以及快速响应流量变化的能力。在今年的创新人工智能应用大会(IAAI)上,我们提出了SLIDR(切片级机器人检测)系统,这是一个通过弱监督训练的实时深度神经网络模型,用于识别
实时无效化机器人广告点击
机器人广告点击检测是指判断电商网站上的广告点击是由人类还是软件代理发起的任务。其目标是确保广告主的营销活动不会为机器人行为付费,同时避免误判人类点击。该系统需要实时运行,以最小化对广告主体验的干扰,并具备可扩展性、全面性、精确性以及快速响应流量变化的能力。
在今年的创新人工智能应用大会(IAAI)上,我们提出了SLIDR(切片级机器人检测)系统,这是一个通过弱监督训练的实时深度神经网络模型,用于识别在线广告的无效点击。自2021年起,SLIDR已在某中心部署,保护广告主活动免受机器人点击影响。
技术挑战
在线广告中的机器人活动检测面临多重挑战:
- 难以获得覆盖范围广且精确的真实标签
- 机器人行为模式持续演变
- 不同流量切片(如桌面端与移动端)的机器人行为差异显著
- 误报会降低广告收入
标签生成方法
由于缺乏大规模准确真实标签,我们通过识别两种极不可能由机器人执行的高门槛活动来生成数据标签:
- 导致购买的广告点击
- 来自具有高RFM评分客户账户的广告点击
RFM评分代表客户在某中心的购买模式的新近度(R)、频率(F)和货币价值(M)。此类点击被标记为人类行为,其余点击标记为非人类。
评估指标
由于缺乏可靠的真实标签,无法使用准确率等典型指标评估模型性能,因此采用三种特定指标:
- 无效化率(IVR):算法标记为机器人的点击比例,反映模型召回率
- 误报率(FPR):被算法无效化的购买点击比例,以购买点击作为人类点击分布的代理
- 机器人覆盖率:通过启发式方法(如一小时内有超过k次广告点击的用户会话)评估模型对高概率机器人点击的覆盖能力
机器人检测的神经网络模型
模型输入特征包括:
- 用户级频率和速度计数器:统计不同时间段内的点击量和速率,识别突发性机器人攻击
- 用户实体计数器:跟踪IP地址等实体的会话或用户数,识别可能的多用户网关
- 点击时间特征:将一天中的小时和星期几映射到单位圆,捕捉人类活动的昼夜和每周模式
- 登录状态:区分登录客户和未登录会话,后者通常包含更多机器人流量
神经网络为二元分类器,包含三个全连接层,中间层使用ReLU激活函数和L2正则化。训练时采用样本权重,确保不同时间片和标签值的点击具有均衡权重。
切片级校准优化
全局校准会导致不同切片表现不均。为此,我们将校准建模为凸优化问题:
- 设定整体FPR预算(所有切片FPR总和上限)
- 联合优化所有切片的IVR总和
- 约束条件包括每个切片的最低机器人覆盖率和总FPR不超预算
通过将每个切片的IVR-FPR曲线近似为FPR的二次函数,求解联合优化问题可为各切片找到合适阈值。切片级校准显著降低了整体FPR并提高了机器人覆盖率。
系统部署架构
系统采用离线每日重训练与实时推理相结合的设计:
- 离线系统:每日重新训练和校准模型,适应变化的机器人模式
- 实时组件:结合Redis和只读数据库缓存计算特征值,在可水平扩展的GPU实例集群上进行神经网络推理
- 性能要求:在某机构云服务上运行的推理服务p99.9延迟低于5毫秒
为防止训练数据异常和模型性能波动,系统设置多重防护机制:
- 输入数据监控(如每周各小时的最小人类点击密度)
- 异常模型更新阻止机制
- 灾难恢复方案(快速回滚至稳定模型、流量重放工具等)
未来方向
计划引入用户、IP地址、用户代理和搜索查询的学习表示,并探索深度交叉网络等先进神经网络架构,以更好地捕捉表格数据中的特征交互。相关初步研究已在NeurIPS 2022论文《大规模表格数据的自监督预训练》中发表。
致谢:Muneeb Ahmed
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
更多推荐
所有评论(0)