
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
DeepFM 是“FM+DNN 共享嵌入” 的设计思路被后续众多模型借鉴(如 xDeepFM、AutoFM 等),成为推荐系统 / 在线广告的基础模型之一。核心优势:在无需人工特征工程的前提下,实现了低阶 + 高阶特征的端到端学习,兼顾效果、效率、工程落地性,这也是其至今仍被广泛应用的原因。适用场景:高维稀疏特征的点击率 / 转化率预测,如电商推荐、在线广告、APP 商店推荐等,是工业界落地的首选
阿里团队提出的DSIN模型创新性地从会话角度建模用户兴趣,解决了传统CTR预测中行为序列噪声和不连续性问题。该模型通过四层架构:1)按时间间隔划分行为序列为会话;2)采用带偏置编码的多头自注意力提取会话核心兴趣;3)用Bi-LSTM捕捉会话间兴趣演化;4)针对目标物品自适应激活相关会话兴趣。在阿里内部数据集和公开数据集上均取得SOTA效果,为推荐系统提供了更精准的用户兴趣建模方法。

DNN(深度神经网络)是一种多层结构的人工神经网络,通过输入层、隐藏层和输出层实现复杂数据处理。其核心原理包括前向传播的信息传递和反向传播的参数优化,利用激活函数、损失函数、优化器等组件提升性能。DNN具有强大的非线性拟合能力,可自动提取特征,广泛应用于图像分类、文本分析等领域,但也面临数据需求大、计算成本高等挑战。典型应用包括ResNet、机器翻译等。

本文系统介绍了行为序列向量化的方法与应用。基础方法包括元素Embedding+池化聚合(平均/最大/求和池化)和统计特征编码,适用于简单场景但会丢失顺序信息。进阶方法通过RNN/LSTM、CNN和Transformer等深度学习模型保留时序关联,其中Transformer凭借自注意力机制在捕捉长序列依赖方面表现最佳。实际应用中常组合多种方法,根据序列长度、模型复杂度等需求选择方案。核心原则是平衡顺
特征重要性评估方法主要分为四类:1. 模型内置方法(如树模型的Gini重要性、线性模型系数);2. 统计方法(方差分析、卡方检验等);3. 扰动法(置换重要性、Drop-column法);4. SHAP值等博弈论方法。不同方法各有特点:树模型方法计算快但不适合高基数特征,线性方法仅适用于线性关系,SHAP能捕捉特征交互但计算量大。实际应用中需根据模型类型和需求选择合适方法,并注意特征归一化、非线性







