logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

deepctr 数据预处理部分,解读

import pandas as pdfrom sklearn.preprocessing import LabelEncoder, MinMaxScalerdata_frame = pd.read_csv('./data/criteo_sample.txt')# C开头的列,值都是乱码,所以按枚举 转为idsparse_feature_names = ['C' + str(i) for i in

#推荐算法#数据挖掘
【搜索算法】靠item标签召回,超越ElasticSearch+分词的baseline

要超越ElasticSearch+(item名)分词的baseline,如果都要求 有相关性的item(有token匹配),其实就是相当于优化分词,而分词优化的极限就是把 item名和query词 切分成字级token。所以标签召回,只能是相当于 扩充更多的 推荐的item。搜【健身】,搜出【哑铃】就相当于是推荐出的item。比如搜【杠铃】,搜出【哑铃】可以,

#elasticsearch#大数据#搜索引擎
VeRL框架跑通gsm8k数据集

指定数据集所用的reward function。预处理gsm8k数据集,从本地读。安装verl,再在执行训练脚本。的时候看缺哪个再安装哪个。

报错:package javax.mail does not exist

package javax.mail does not existpackage javax.mail.internet does not existcannot find symbolsymbol:class PasswordAuthenticationsymbol:class Authenticator

#java#服务器#前端
python报错,ValueError: numpy.dtype size changed, may indicate binary incompatibility.

【代码】python报错,ValueError: numpy.dtype size changed, may indicate binary incompatibility.

#python#numpy
CTR模型加了特征后一下AUC到了0.999甚至1.0

可能是ground truth label不小心给传入输入模型了。

CTR模型归纳来说就是三种类型的特征作为输入

int list即 id listfloat list即一些比如价格、销量等特征fixed float list即固定的embedding

#tensorflow
python OpenAI调用deepseek代码

【代码】python OpenAI调用deepseek代码。

#python
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择