夏天7788 个人主页

@xuxiatian

夏天7788

2023-01-05 16:32:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

c++ 随机数生成

一、标准库（被包含于中）提供两个帮助生成伪随机数的函数：函数一：int rand(void)；从srand (seed)中指定的seed开始，返回一个[seed, RAND_MAX（0x7fff）)间的随机整数。函数二：void srand(unsigned seed)；参数seed是rand()的种子，用来初始化rand()的起始值。二、rand()的用法

转：xgboost特征选择

Xgboost在各大数据挖掘比赛中是一个大杀器，往往可以取得比其他各种机器学习算法更好的效果。数据预处理，特征工程，调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择，运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。这里采用的数据集来自于Kaggle| Allstate Claims Severity比赛，这

数据预处理（上）之离群值处理、标准化

https://www.ricequant.com/community/topic/4271/ 一般的数据预处理中常提及到三类处理：去极值、标准化、中性化。这几个词想必大家都不陌生，也许存在疑问或有自己的一番见解，本文将先对前两个进行解释和总结，欢迎讨论和指正~一、离群值处理因为过大或过小的数据可能会影响到分析结果，尤其是在做回归的时候，我们需要对那些离群值进行处理。实际上离群值和极值是有

转：机器学习是否需要考虑共线性、异方差等问题？

转自：https://www.zhihu.com/question/310448033/answer/596576732作者：刘一刀链接：https://www.zhihu.com/question/310448033/answer/596576732来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。机器学习里只不过是换了名字，l1正则化和l2正则化实际上就是套索回归和

wind量化数据获取相关

1. wind主菜单->量化->开放接口->代码生成器。可以用来查看获取数据对应的代码。即命令生成器，用来辅助生成代码。代码开头：from WindPy import w w.start(); 2. wind量化交易平台3. Excel wind插件4. 参考数据服务RDF...

转：Python数据分箱，计算woe，iv

转自：https://zhuanlan.zhihu.com/p/38440477数据分箱的重要性及优势：离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；逻辑回归属于广义线性模型，表达能力

#算法

传统文本分类和基于深度学习文本分类

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目，恰好硕士毕业时论文题目便是文本分类问题，趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述：淘宝商品的一个典型的例子见下图，图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大...

数据预处理（上）之离群值处理、标准化

共 29 条

请选择